ということで, (大方の予想通り?) NTT CS研に移籍しました。
前の工藤君と同じポストですが,
言語グループ
ではなくて,
学習グループ
(創情部・創発G)の方です。
といっても言語の研究は続けるので, ご安心下さい(って誰に言っているんだ)。
任期は基本的に数年なので, 大学の就職先募集中です。/
(というか, 先に留学したいという話も..。)
事務手続きの際に, ATRで入っているNTTの健康保険証(!)に書いてある番号
を知らせてくださいと言われたのですが,
それがそのまま今のNTTの社員番号だったりして
*1
, やっぱりNTTとATRは色々な意味で兄弟のようなものなんだなあ, と再確認。
入って最初の印象は, とにかく至れり尽くせりだなぁ, ということ。
表からは見えませんが, テニスコートやフィットネスルームや何でもあって,
それらがみんな綺麗。
世の中の会社の99%はこんな環境じゃないぞ..というか。
後,
表
から見ると一見建物がプレハブ風なのですが, 中に入ると建築が非常に工夫
されていて, まるで「新建築」のグラビアのような空間で, 建築が好きな人には
素晴らしい空間だなあと。
入ったグループは学習グループの方なので, ポアソン点過程が.. とか
超新星爆発が.. とか言語に限らず面白い話題が一杯で, とても気に入っています。
*1: ATRでは, それと別にATRの社員番号があった。
年度の切り替えでバタバタしていましたが, 少し前にNL研の
論文
と
発表資料
を論文のページに置いておきました。
ここ2年間くらいやっていたノンパラメトリックベイズの話の
集大成のような感じになっていると思う。
スライドに一ヶ所吉野家コピペが入っているのですが, 内部で1時間くらいかけて
話した話を30分で話さないといけなかったので, 笑っている暇もなかったかも。;
松本研で僕の話を聞いていた人は知っていると思いますが,
言語モデルを(無限に)可変長にするというのは, 本当に長い間
興味を持っていて, 本質的だと信じている問題で,
今回とりあえず解くことができてほっとしています。
実験していて思ったのは, 言語モデルでテストセットパープレキシティを下げるのは
本当に難しい, ということ。
すでに5-gramでパープレキシティが70くらいになっている状態で, 何をしても
下がらないことが多い。
*1
vpyldaのコードは, 実際書いていてディリクレ過程, ギブスサンプリング,
tree上の再帰, Newton法, 二分探索, ハッシュに最後は変分ベイズEMアルゴリズムまで
使っていて, 情報科学の手法をこれでもかこれでもかと使っているのに
(この中でハッシュだけはGlibを使いましたが, 他は全部自分で一から書いた),
それでもパープレキシティが上がったり, ほんの少ししか下がらなかったりする。
Goodmanが,
"A bit of progress in Language Modeling, Extended Version"
(2001) という70ページ以上あるテクニカルレポート
*2
の中で, ダンテ「神曲」の言葉を借りて
"All hope abandon, ye who enter here (すべての望みを捨てよ)"と書いている気持
もわかるような気がする。
実際, パープレキシティ以外にもっとモデルの内容を反映する精度の測り方がないか,
とは思うわけだけれども。
*1: もちろん, オーバーフィットを気にせずモデルを作って, 普通の3-gramと
λ:1-λ(固定値)で適当に混ぜたりすれば下がりますが, そういうアドホックなことを
するのは僕は好きではない。
*2: 去年の5月くらいに, 京阪奈ユータウンのドトールでこれをずっと読んでいた。
これまで, 直接言語でない論文を入手するのに結構手間をかけていたわけですが,
NTTの図書室は色々なオンラインジャーナルに契約していて,
オンラインでかなり見れるようだ。数学のトップジャーナルの一つであるらしい
Invent.Math. の最新版も普通に見れてしまった。ていうか2Fの図書室に本物が..。
すごすぎ。
*1
CS研からはすごいことに外部は(恐らく専用線を通じて)武蔵野通研のプロクシ
を通過するみたいなので, そこで契約しているのだと思う。
情処の研究報告も全部オンラインで見れるので, 余計に学会に入会する必要性も
なくなってしまった。;
*1: こういう所に, 普通の企業とは違う, 電電公社 通研からの伝統を感じる。