mots quotidiens.

デバッグ中だけど, 綺麗な図ができたので。

横軸は時間(=単語)。この Cranfield コーパスの記事は160 wordsくらいあったらしい。
縦軸はモンテカルロサンプル。

朝から晩まで(9:30ごろから)手計算してもわからなかったので, 公開デバッグ。(おいおい)

研究上 LDA をちゃんと実装する必要が生じたので(これまでは Gibbs sampler をCで書いていて, MAP推定になっていてわりとナイーブだった), LDAのテクニカルレポートを見直していたのだが, あれほど前に難しいと思った付録のパラメータ推定の部分が普通にわかる。人間の進歩ってすごいなぁ, と思うわけだけど, それは置いといて。

基本的な推定は上田さんがおっしゃっているほど *1 難しくはなくて, わかれば別に難しくないのだが *2 (そのうちエッセンスを紹介します), 拡張としてβ(=p(w|z)のマトリクス)を最尤推定する (Empirical Bayesという) のではなくて, (uniform) Dirichlet prior を与えて変分ベイズ推定するのが導出できない。

この場合, βに関しても p(β|λ) という確率分布があって, βに関して積分してλを求める。このとき, <log p(w|z)> = ∫Dir(β|λ)logβ_kdβ = Ψ(λ_k) - Ψ(Σ_k λ_k) がどこかに出てくるはず。..だが, 論文にはもっと簡単な式になっている。
きのう, 今日とうげーと言うような積分式を一日中計算した結果だと(今数えたら, A4 9枚だった(裏も使っているのがある。))

K(logΓ(Kη)-KlogΓ(η)) + ΣΣ(N(v,k)φ_vk+η-1)(Ψ(λ_kv)-Ψ(Σλ_kv))
                            v k                                 v

を λ_kv に関して最適化するという非線型な最適化になるはず (上のΨ関数が出てきているのに注意)。
何でだ。うー。

: 「テキストモデリングの新展開」言語処理学会年次大会2003, or 最近のSIGNL.
: しかし, 1z1^T と言われてこれが要素が全部zの行列を表しているのが一瞬でわかる, という程度のテクはニュートン法を導くのに必要。

土曜日に計算したら解決しました。
β = {p(w|z)} はグローバルなパラメーターなので, 最初にβに関して変分近似して, その後残りを普通に変分近似するといい模様。つまり, 変分近似を変分近似でくるむ感じ。 (PDF) どこが "easily derived" なんだどこが‥(笑)。

PSを画像にするには, 下のようなシェルスクリプト ps2ppm:

#!/bin/sh
gs -dBATCH -dNOPAUSE -sDEVICE=ppmraw -sOutputFile=- -q "$@"

を使って, % ps2ppm hoge.ps > hoge.ppm のようにするといいようだ。
ただし, こうするとアンチエイリアスがかからないので, こんな感じ(上のPDFの1ページ目) のようになってしまう。gv のようにアンチエイリアスがかかった, 綺麗な画像を psから作る方法はないのだろうか。ご存知の方がいたら教えて下さい.

answer

玉野さんから, 情報をいただきました。
新しい Ghostscript でサポートされている pngalpha を出力デバイスに指定するといいとのこと。

#!/bin/sh
gs -dBATCH -dNOPAUSE -sDEVICE=pngalpha -r100 -sOutputFile=- -q "$@"

-r* が解像度(resolution)のよう。
ただし, pngalpha はかなり新しい gs でないとダメのようで, 手元の Ghostscript 7.05 では入っていませんでした。 8.14 をコンパイルして入れてみたところ, 以下のような感じに。 gv で見るのに比べるといまいちの気がしますが, これはフォントの関係かも知れません。 gs.png

松本研でも gs は 7.05, mint は 5.50 なので, そのままでは使えない模様。 gs を不用意にアップデートして gv が使えなくなったりすると大変なので, gs のバージョンが自然に上がったら使ってみることにしようかなと思います。

2004年10月13日(水) [n年日記]

#1 debug

2004年10月15日(金) [n年日記]

#1 -

2004年10月17日(日) [n年日記]

#1 解決

#2 psto{画像}

answer

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.