水道橋のサイボウズラボで行われた, TokyoNLPのNIPS2011読み会に参加してきました。
春の日曜日に, 花見に目もくれず論文読み会をする男ばかり約10名。w
当日朝まで準備をしていたので, 途中落ちてしまった時もありましたが(すみません),
NIPSらしく脳の論文の紹介もあったりなど, 興味深い勉強会でした。
TokyoNLPの雰囲気がわかり, 夜はnokunoさん・shuyoさん・tsubosaka君とインド料理を
食べて帰り, とても充実した一日でした。
僕は Kernel Beta process の発表をしました。
期待していたものの, 実際読んでみると, 核になる部分の推論が高次元では
上手く行かなそうなどの問題があって少し微妙だったので, 1週間ほどだけ資料を
置いておきます。
-
tokyonlp-nips2011-kbp.pdf
発表した後の議論で, 各素性の持つ"canonicalな"共変量x*を一点に決めてしまうのは
高次元だと難しい上, ユニモーダルでない場合のことを考えると, サンプル点の
重みつき平均で表した方がいいのではという話になり,
やはり発表して有益でした。
年度の切り替えでバタバタしていましたが, 少し前にNL研の
論文
と
発表資料
を論文のページに置いておきました。
ここ2年間くらいやっていたノンパラメトリックベイズの話の
集大成のような感じになっていると思う。
スライドに一ヶ所吉野家コピペが入っているのですが, 内部で1時間くらいかけて
話した話を30分で話さないといけなかったので, 笑っている暇もなかったかも。;
松本研で僕の話を聞いていた人は知っていると思いますが,
言語モデルを(無限に)可変長にするというのは, 本当に長い間
興味を持っていて, 本質的だと信じている問題で,
今回とりあえず解くことができてほっとしています。
実験していて思ったのは, 言語モデルでテストセットパープレキシティを下げるのは
本当に難しい, ということ。
すでに5-gramでパープレキシティが70くらいになっている状態で, 何をしても
下がらないことが多い。
*1
vpyldaのコードは, 実際書いていてディリクレ過程, ギブスサンプリング,
tree上の再帰, Newton法, 二分探索, ハッシュに最後は変分ベイズEMアルゴリズムまで
使っていて, 情報科学の手法をこれでもかこれでもかと使っているのに
(この中でハッシュだけはGlibを使いましたが, 他は全部自分で一から書いた),
それでもパープレキシティが上がったり, ほんの少ししか下がらなかったりする。
Goodmanが,
"A bit of progress in Language Modeling, Extended Version"
(2001) という70ページ以上あるテクニカルレポート
*2
の中で, ダンテ「神曲」の言葉を借りて
"All hope abandon, ye who enter here (すべての望みを捨てよ)"と書いている気持
もわかるような気がする。
実際, パープレキシティ以外にもっとモデルの内容を反映する精度の測り方がないか,
とは思うわけだけれども。
*1: もちろん, オーバーフィットを気にせずモデルを作って, 普通の3-gramと
λ:1-λ(固定値)で適当に混ぜたりすれば下がりますが, そういうアドホックなことを
するのは僕は好きではない。
*2: 去年の5月くらいに, 京阪奈ユータウンのドトールでこれをずっと読んでいた。