mots quotidiens. | |
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp | by hns, version 2.10-pl1. |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||
横軸は時間(=単語)。この Cranfield コーパスの記事は160 wordsくらいあった らしい。
研究上 LDA をちゃんと実装する必要が生じたので(これまでは Gibbs sampler をCで 書いていて, MAP推定になっていてわりとナイーブだった), LDAのテクニカルレポートを見直していたのだが, あれほど前に難しいと思った付録の パラメータ推定の部分が普通にわかる。 人間の進歩ってすごいなぁ, と思うわけだけど, それは置いといて。
基本的な推定は上田さんがおっしゃっているほど *1 難しくはなくて, わかれば別に難しくないのだが *2 (そのうちエッセンスを紹介します), 拡張としてβ(=p(w|z)のマトリクス)を最尤推定する (Empirical Bayesという) のではなくて, (uniform) Dirichlet prior を与えて変分ベイズ推定する のが導出できない。
この場合, βに関しても p(β|λ) という確率分布があって,
βに関して積分してλを求める。このとき,
<log p(w|z)> = ∫Dir(β|λ)logβ_kdβ = Ψ(λ_k) - Ψ(Σ_k λ_k)
がどこかに出てくるはず。..だが, 論文にはもっと簡単な式になっている。
きのう, 今日とうげーと言うような積分式を一日中計算した結果だと(今数えたら, A4 9枚だった(裏も使っている
のがある。))
K(logΓ(Kη)-KlogΓ(η)) + ΣΣ(N(v,k)φ_vk+η-1)(Ψ(λ_kv)-Ψ(Σλ_kv)) v k vを λ_kv に関して最適化するという非線型な最適化になるはず (上のΨ関数が出てきているのに注意)。
#!/bin/sh gs -dBATCH -dNOPAUSE -sDEVICE=ppmraw -sOutputFile=- -q "$@"を使って, % ps2ppm hoge.ps > hoge.ppm のようにするといいようだ。
#!/bin/sh gs -dBATCH -dNOPAUSE -sDEVICE=pngalpha -r100 -sOutputFile=- -q "$@"-r* が解像度(resolution)のよう。
松本研でも gs は 7.05, mint は 5.50 なので, そのままでは使えない模様。 gs を不用意にアップデートして gv が使えなくなったりすると大変なので, gs のバージョンが自然に上がったら使ってみることにしようかなと思います。
タイトル一覧 |