「計算統計II マルコフ連鎖モンテカルロ法とその周辺」
[岩波書店]
[IBIS blog]
の謹呈本ゲット。
査読してかなり色々コメントを書いたので, 2か所くらいに僕の名前が載っていますが,
所属は書かないというのが伊庭さんの方針らしいので, 知っている人が見ないと
名前だけでは誰が誰だかわからないかも。
非常に大部な本で, 様々な話題がカバーされているという印象です。
入門には, 英語の普通の論文を読んだ方がいいのかも知れないという気はしました。
筑波の山本先生に聞いてみたところ, 別に勘違いではなかったようです。
下では, Polyaで回数がほとんど1に dumping されることが悪いかのように
見えてしまいますが, 実は逆で, 最尤推定(ナイーブベイズ)の場合は
p(x|p) = Πipi^(ni)
になっている所を, Polya の場合は
n
i → n~(i) (~ 1)になって回数が減るので,
p(x|α) ~ Πipi^(n~(i))
確率はむしろ上がることになる。
つまり, 確率 p の低い単語がn回出現すると, 最尤推定では確率は p^n になって
指数的に小さくなるが, Polya では"キャッシュ"が効くので p^(log n),
実際はほぼ p^1 くらいになる, ということ。
この現象が実際の観察とよく適合していることについては, COLING 2000の
Ken Church,
"Empirical Estimates of Adaptation: The chance of Two Noriegas is closer to p/2 than p^2"
にあると山本先生に教えてもらいました。(と, このくらいは書いてしまってもいい
かなと思います。)
実はこの論文のタイトルの p/2 というのは解析的に出したものではなくて,
"Noriega" の2回の出現確率が1回の0.75倍程度になっている, という観察から
出ているものなので, 下の議論を踏まえると, 本当は
"Two Noriegas is closer to p^log2 than p^2" なのだと思う。
(対数の底は任意として。)
もちろん, Minkaの話はChurchの話の後に出たものなので, 入っていないけれども。