mots quotidiens. | |
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp | by hns, version 2.10-pl1. |
|
|||||||||||||||||||||||||||||||||||||||||||||||
牧野君のノンパラメトリックベイズの講演はすごい力作で, しかもわかりやすく, 講演をお願いして良かったなと思いました。 あの内容を50分で話すというのがそもそもかなり無茶なので, スライドを見直すと 結構わかるのではないかという気がします。
ベイズ学習の説明の所で, 一般にベイズ学習は事前分布を仮定して.. と言うと, 結果がその事前分布に依存してしまうじゃないか!という批判が 当然ありますが, 実際には, これまでの経験では事前分布はできる限り「無情報」にすることが多いので, そういう批判はかなりかわせるような気がします。例えば, DPはデータがPower Lawに 従うという仮説の事前分布ですが, 実際にはハイパーパラメータのαは学習できるので, Power law が現れないようにもなるはずですが, データがそれを支持している..という 理屈になっているかと思います。
終わった後, 帰りに愛する銀杏(安田講堂前)でお茶をして帰りました。 ケーキとコーヒーで310円とか, ありえない...。
この話は最初, LDAのディリクレ分布をPitman-Yor過程(ポアソン=ディリクレ分布)
にしただけかと思ったのですが, そうではないことに聞いていて気付きました。
佐藤君が
Twitterで喋っている
ように, この話はLDAにDM的なキャッシュ(Pitman-Yor adaptor)を入れたもの
なのだと思います。
これまで, LDAには単語のバースト性
(同じ単語が複数回現れやすいというキャッシュモデル)
が表現できないという問題があり, その点で Dirichlet Mixtures (DM)の方が
パープレキシティの低いモデルとなっていました。が, この話でLDAにもキャッシュが
入ったので, DMはもしかすると不要になったかも知れません。
*1
佐藤君の論文は全部CRPで書かれているので, 何をやっているかわかりにくいのですが, 少し考えるとわかったので, 以下に整理。
一般に, LDAの生成モデルでは文書に含まれる単語が
上の佐藤君の話は, この Polya 分布でαに当たる単語の事前確率が一定ではなく, 文書のトピックを考慮して LDA(α) になっている, と理解できます。 それに加えて, ディリクレ分布にパラメータが1つ増えてポアソン=ディリクレ分布 (Pitman-Yor過程)になっている, ということ。つまり,
というわけで, この話でLDAの欠点も克服されたので, 一つ一つは特別なことをして いる訳ではないと思いますが, 実際上は結構役立つモデルになっているのではないか, という気がします。
タイトル一覧 |