mots quotidiens.

月曜日の夜にNIPSから帰ってきました。
僕の発表は他の人の話ではわりと繁盛していたとのことですが, 後ろで聞いていた人もいたと思うので, 自分では何人くらい来ていたのかよくわからなかったです。使ったポスター (B0)をPDFにして論文のページに置いておきました。
この話の動機の一つは, PLSIやLDAなどのモデルで「文書」という単位を最初から仮定して, 意味的に coherent なものと思ってしまうことに前から疑問があったからですが, 実はLDAについては似た話は Griffiths が最近やったとのことでした。これは僕のポスターの最後に書いてある話と同じで, Gibbsで同時推定するとのことでした。流石すぎ。僕の話は DM も使っていて, online inference する話なので, それはそれで意味があるのではないかと思っていますが。

当たり前ですが, 有名人をいっぱい生で見ました。すごすぎ。
黒いセーターを着たガラマニの喋り方や声が魅力的なのが印象的でした。

全体的な感想としては, やはりアメリカの有名な研究室/コミュニティに入らないと全然ダメだな, ということでした。
日本でも, 自然言語処理で一流の成果を上げたいなら, 松本研か同等のレベルの研究室に入らないと事実上非常に難しい, という状況があるように思いますが, 同じことが海外に関しても言えるなと思いました。 (Power law というやつですね。)
有名な研究室の学生が必ずしも, 自分より全くかなわないほどとてつもなく頭がいいとは見ていて別に思わないのですが, コミュニティに入らないと駄目な点があって, とても悔しい感じがします。

Bayesian methods for NLP Workshop の話も書いておいた方がいいと思うので, 書いておきます。

どの話もめちゃめちゃレベルが高く, 重要で面白い結果を(時間がないので) ここにいるなら当然ですよね, という感じでばばばばっとすっ飛ばすので笑いが巻き起こっていました。(笑)
話はどれもかなり進んでいて, 例えば2番目の Vickrey の話では, 記号や単語がどのくらい似ているか, という affinity matrix に対し (NLPでこれに興味がある人は結構いると思うのですが), 生成モデルとして行と列がデータと, 未知の無限個の素性に対応する Indian Buffet process prior を考えて, それに重み(これはちらっと見た限りでは, そのロジットが正規分布に従う)をつけて各行の内積を取って "真の affinity matrix" を作り, そこからの Gaussian Noise の加わったサンプルとして実際の観測された affinity matrix が得られている, というモデルを考える。 Gibbs でごりごり推定すると, IBPの素性に見事に affinity を表現するような割り当てが現れる, という話でした。
例えば0-9の数字の affinity matrix (人に判断させたもの)をモデルにかけると, IBPでそれぞれの素性にビット1が立っている数字は

素性1 -> 2 4 6 8 0
素性2 -> 1 3 5 7 9
素性3 -> 2 5 0
素性4 -> 6 9 (見た目が似ている)
:

などなど。
Indian buffet process は各データに, 未知の可算無限個の素性からのマルチラベルを付与する(有限個の行と, 可算無限個の列を持つバイナリマトリクスを生成する) 生成モデルですが, 本会議で出たのは今回が最初なのに, もう組み込まれて完全に部品になっているとは, おそるべし。
最後のパネルトークでは, Ken Church, Griffiths, Bilmes, McCallum, Roweis と観客の中で事実上 Blei と Wray Buntine がパネラーのようになって議論がありました。Pereiraもいたので, この小さい部屋にNLPの頭脳の中心が集まりまくっているなぁ, と思ってしまった。
議論自体は Ken Church が perplexity を低くする, というような経験主義的な立場を取るのに対し, McCallum が "Perplexityを低くすることには興味がない" と言っていました。 Roweisが SIGGRAPH の例を出して, これまで想像もできなかった面白いものを作ることに意味があるのだ, そのための道具としてベイズ推定はとても役に立つ道具なのだ(頻度主義では階層的で複雑なパラメータをうまく扱えないので), と言ったのには僕は賛成でした。もちろん, perplexity を低くするというような評価も重要で, パネリストもその重要性を否定しているわけではありませんでしたけれども。
かなり長かったので, 他にも色々な話が出たように思いますが, とりあえずそんな所だと思います。

書き終わりました。
できてしまうとあまり実感が湧かないけれども, これまでずっと考え続けてきたことと努力の集大成になっていると思う。いちおうこれで, 文脈モデルとしては Dirichlet Mixture を超えて今パープレキシティが一番低いモデルになっているはず。 (文脈モデルのパープレキシティはこれまで一般に, DM < LDA < PLSI < (LSI) となっている。)
もちろん, そうした数値がメインではないけれども。

nl165pf.pdf

2005年12月15日(木) [n年日記]

#1 帰国

#2 Bayesian NLP Workshop

2004年12月15日(水) [n年日記]

#1 NL研

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.