mots quotidiens. | |
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp | by hns, version 2.10-pl1. |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||
国際関係について, ニュースで言われているような話が色々あって,
その後に, 日本人は何でも日本語で読め, 情報を得られるので, 日本という世界に
浸かってしまって国際感覚を失いがちだ, という話がありました。
印象的だったのは, 明石さんが"「国際貢献」という言葉は嫌いだ" とおっしゃって
いたこと。"「国際協力」という言葉の方が好きです" とのことでした。
つまり, 国際的に日本が損をして奉仕する, というのではなくて,
(そういう風に明示的には言われませんでしたが)互恵的な関係であることが
大事なのではないか, ということでした。これが思うに第一のポイントで,
また, 中国の上海と南部とで13倍もある経済格差をなくすために,
NGOなどの日本の方がずいぶん頑張ってくださっていて, そういう経済的でない
援助も重要ではないか, というのが第二のポイントだったかと思います。
こういう話を聞くということは, 話自体の情報だけというよりも, latent attitude
を育てるという意味がまず一番であろうかと思うのですが。
なお, この内容は録音されていて, 来年の(確か)1/22のNHKラジオ第二で流れる
のだそうです。(前に聞いた時はそういう話はなかったので, 今回は特別
なのだと思う。)
下に色々書き足したので, ここまで来ると, 別に文書にした方がいいような
気がしてきました。
と言っても, そんなに完全に新しいことを言っているわけ
ではないと思うので, 少し躊躇があります。
p(x|p) = (n0!/Πini!)Πi pi^ni (1)になる。ただし, n0 = Σi ni.
pi = ni/n0 (2)として求まる。 これは基本的に Naive Bayes で使われている方法で, 高村君のNBのチュートリアル などを参照。
p(x|α) = ∫p(x|p)p(p|α)dpとして p を積分消去してしまうことができる。この積分は解析的に計算できて,
p(x|α) = Γ(α0)/Γ(α0+n0)Πi Γ(αi+ni)/Γ(αi) (4)になる。この分布は Polya分布 (Dirichlet/Multinomial)と呼ばれている。 ただし, α0 = Σiαi.
Γ関数を含むこの分布は僕は毎日のように使っているわけだけれども,
一体この分布はどういう意味を持っているのだろうか, というのが気になった。
実はこの答えは, Minka の
"Estimating a Dirichlet distribution"
の4章に書いてあるのだが, とりあえず必要がなかったので, これまで
読み飛ばしていた。(この論文は普通に見るとかなり難しいと思うので,
隅から隅まで読んで計算をフォローしている人はあまりいないと思うのですが..。)
ここに書いてある議論は, 以下のようなこと。
いま, (1)式は
p(x|p) ∝ Πipi^niを意味するので, 両辺の log をとると
logp(x|p) = Σi ni log pi.よって, ∂logp(x|p)/∂pi = ni/pi.つまり, ni = (∂log(x|p)/∂pi)・piということになる。
(∂logp(x|α)/∂mi)・mi = αi[Ψ(αi+ni) - Ψ(αi)] ≡ n~(i).になる。ここで, mi = αi/α0.
n~(i) = α Σi=1n 1/(α+n-i)ここで, Σの中の各項が1に等しければ, 当然 n~(i) = n_i です。 しかし実際は, 各項は
= Σi=1n α/(α+n-i)
= Σi=1n 1/(1+(n-i)/α).
1/(1+(n-i)/α)で, 1より小さくなっています。つまり, この和は
1 + 1/(1+1/α) + 1/(1+2/α) + ... + 1/(1+(n-1)/α)になっていて, 頻度 i が大きくなるほど, その実際のカウントは1増えるのでは なく, 1/(1+(n-i)/α) = 1 - (n-i)/(α+n-i) だけ "dumping" されます。 Minka の論文の Figure 1 には, この和がαが小さい時には log のような ダンピング効果を持つと書いてありますが ∫1/xdx = log(x) なことを考えると (この場合は離散ですが), わりと納得できると思う。
実際, ここで α が 0.001 のように非常に小さい時(自然言語の場合は
よくある), 上の級数の2項めから後ろは分母が非常に大きくなるのでほとんど0に
近付いて, 結局「n が何であっても」この effective count はほぼ1になる,
ということ。(!)
つまり, もし
αi が小さい→ xi の事前観測値が小さければ,
xi が何回観測されても, 1回だけ観測されたのと同じになる, ということ。
これが Minka の論文の(79)式の意味する所だと思う(こういう説明は論文には
全然書いていないが)。
αk' = αk ・(ΣiΨ(αk+nik)-Ψ(αk)) /(ΣiΨ(α0+ni)-Ψ(α0))という fixed-point iteration を計算します。 (この式を導くには, 色々自明でない bound を使って計算する必要があります。)
αk' = αk ・(Σi nik/(αk+nik-1)) /(Σi ni/(α0+ni-1))という fixed-point iteration を解けばいいことがわかります。
Ψ(α+n) - Ψ(α) = Σi=1n 1/(α+n-i) ~ n/(α+n-1)という近似をやっているのだ, ということに気がつきました。
Γ(x+n)/Γ(x) = x(n) = x(x+1)..(x+n-1) ~ (x+n-1)^nという近似をしているのだ, という Minka の(71)式の意味なのだと思います。 (この式には説明がないので, 前に読んだ時は(71)式の理由が全然わからなかった。)
タイトル一覧 |