mots quotidiens. | |
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp | by hns, version 2.10-pl1. |
|
||||||||||||||||||||||||||||||||||||||||||||||
個人的に面白かったのは, 25枚目の, D(q||p)の最小化とD(p||q)の最小化の違い
について。真の分布をp, 近似分布をqとした時, D(q||p)を最小化すると,
pが複峰だった場合に, ほぼ片方を近似するような分布(mode-finding)になり,
D(p||q)を最小化すると, 全体をカバーするような分布(mean-finding)になる
という話。へーへーへー。
一般に, 変分ベイズ法は真の事後分布に比べて, 変分事後分布がずっとpeakyになる
という特徴があるようですが, これはD(q||p)を最小化しているからかも, と少し
思いました。
それから, スライド41-45での, exp(Ψ(x))の意味とその応用もへー×4でした。(注:
Ψ(x)=d/dxlogΓ(x))
変分ベイズ法で多項分布を推定する時, Eステップで得られたカウントの事後期待値
xiに事前カウントα(0でもok)を足した値
ci = α+xi (i=1,2,..)を正規化して, Mステップで
p(i|x) = exp(Ψ(ci))/Σiexp(Ψ(ci))
としますが(この式の導出は, スライド90のAppendixに書かれています。 *1 ), これが通常の最尤推定
p(i|x) = ci/Σici
とどう違うのか, という話。
exp(Ψ(x))のグラフを書いてみると, この関数はほぼ, x-0.5 と等しくなる ということがわかる(ただし, x<0.5についても自然に定義されている)。 よって, 上の式は最尤推定と比べて, Kneser-Neyのように「ディスカウント」が かかり, 小さなカウントの値をあまり信用しないようになる。 *2 つまり, カウントが0.6->0.1, 1.0->0.5, 2.0->1.5 のように減らされるので, 「ノイズ」による影響が減らされて事後分布がより信頼性の高いものに集中すること になる。実際, これを統計的機械翻訳の単語同士のアライメント確率に適用して, エラーレートが下がっている(スライド44)というのは興味深い。
なお, スライドの式は
exp(Ψ(c_i))/exp(Ψ(Σ_i c_i))になっていますが,
これは恐らく誤っているのに注意 (iについての和が1にならない)。
スライドの通り,
p(i|x) ∝ exp(Ψ(c_i))/exp(Ψ(Σ_i c_i))
ですが, これは ∝ exp(Ψ(c_i)) なので, 正規化すると上のようになると思います。
この時, スライド43のMean-fieldの W(A|1) はカウントが
c1=20, c2=20なので当然0.5で, W(A|2)は
c1=0.5, c2=0.2なので, α=1のとき W(A|2) は0.5807になるようです。
(最尤推定ではスライドの通り 0.5/(0.5+0.2) = 0.71 なので, 確かにスムージング
されている。)
タイトル一覧 |