mots quotidiens.

ということで, (大方の予想通り?) NTT CS研に移籍しました。
前の工藤君と同じポストですが, 言語グループではなくて, 学習グループ (創情部・創発G)の方です。といっても言語の研究は続けるので, ご安心下さい(って誰に言っているんだ)。
任期は基本的に数年なので, 大学の就職先募集中です。/ (というか, 先に留学したいという話も..。)

事務手続きの際に, ATRで入っているNTTの健康保険証(!)に書いてある番号を知らせてくださいと言われたのですが, それがそのまま今のNTTの社員番号だったりして *1 , やっぱりNTTとATRは色々な意味で兄弟のようなものなんだなあ, と再確認。
入って最初の印象は, とにかく至れり尽くせりだなぁ, ということ。表からは見えませんが, テニスコートやフィットネスルームや何でもあって, それらがみんな綺麗。世の中の会社の99%はこんな環境じゃないぞ..というか。
後, 表から見ると一見建物がプレハブ風なのですが, 中に入ると建築が非常に工夫されていて, まるで「新建築」のグラビアのような空間で, 建築が好きな人には素晴らしい空間だなあと。

入ったグループは学習グループの方なので, ポアソン点過程が.. とか超新星爆発が.. とか言語に限らず面白い話題が一杯で, とても気に入っています。

: ATRでは, それと別にATRの社員番号があった。

[n年日記]

VPYLM

年度の切り替えでバタバタしていましたが, 少し前にNL研の論文と発表資料を論文のページに置いておきました。
ここ2年間くらいやっていたノンパラメトリックベイズの話の集大成のような感じになっていると思う。
スライドに一ヶ所吉野家コピペが入っているのですが, 内部で1時間くらいかけて話した話を30分で話さないといけなかったので, 笑っている暇もなかったかも。;

松本研で僕の話を聞いていた人は知っていると思いますが, 言語モデルを(無限に)可変長にするというのは, 本当に長い間興味を持っていて, 本質的だと信じている問題で, 今回とりあえず解くことができてほっとしています。

実験していて思ったのは, 言語モデルでテストセットパープレキシティを下げるのは本当に難しい, ということ。すでに5-gramでパープレキシティが70くらいになっている状態で, 何をしても下がらないことが多い。 *1
vpyldaのコードは, 実際書いていてディリクレ過程, ギブスサンプリング, tree上の再帰, Newton法, 二分探索, ハッシュに最後は変分ベイズEMアルゴリズムまで使っていて, 情報科学の手法をこれでもかこれでもかと使っているのに (この中でハッシュだけはGlibを使いましたが, 他は全部自分で一から書いた), それでもパープレキシティが上がったり, ほんの少ししか下がらなかったりする。 Goodmanが, "A bit of progress in Language Modeling, Extended Version" (2001) という70ページ以上あるテクニカルレポート *2 の中で, ダンテ「神曲」の言葉を借りて "All hope abandon, ye who enter here (すべての望みを捨てよ)"と書いている気持もわかるような気がする。
実際, パープレキシティ以外にもっとモデルの内容を反映する精度の測り方がないか, とは思うわけだけれども。

: もちろん, オーバーフィットを気にせずモデルを作って, 普通の3-gramと λ:1-λ(固定値)で適当に混ぜたりすれば下がりますが, そういうアドホックなことをするのは僕は好きではない。
: 去年の5月くらいに, 京阪奈ユータウンのドトールでこれをずっと読んでいた。

[n年日記]

渡水復渡水
看花還看花
春風江上路
不覚至君家

[n年日記]

(;∀;) 感動した

これまで, 直接言語でない論文を入手するのに結構手間をかけていたわけですが, NTTの図書室は色々なオンラインジャーナルに契約していて, オンラインでかなり見れるようだ。数学のトップジャーナルの一つであるらしい Invent.Math. の最新版も普通に見れてしまった。ていうか2Fの図書室に本物が..。すごすぎ。 *1
CS研からはすごいことに外部は(恐らく専用線を通じて)武蔵野通研のプロクシを通過するみたいなので, そこで契約しているのだと思う。
情処の研究報告も全部オンラインで見れるので, 余計に学会に入会する必要性もなくなってしまった。;

: こういう所に, 普通の企業とは違う, 電電公社通研からの伝統を感じる。

2007年04月04日(水) [n年日記]

#1 Move

2007年04月09日(月) [n年日記]

#1 VPYLM

2007年04月15日(日) [n年日記]

#1 -

2007年04月21日(土) [n年日記]

#1 (;∀;) 感動した

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.