mots quotidiens.

Webページに色々書き足し & コードを直して, ほぼ完成。 "A First Step" というセクションを書いたので, 使ってみたい方は試してみてください。
サンプルファイル train が付属しているので, C言語版の場合は

% make
% ./lda -N 20 train model

のようにすれば使えます。一つだけ注: 工藤君の plsi を使っていた方は, 基本的にそのまま使えますが (ということを意識して作ってある), featureのIDが 1始まり になっています (SVMlightと同じ。MATLAB版との整合性の意味もあります。)
feature.c で id = atoi(lp) - 1; となっている所を直せば使えるかも知れませんが, awk 等を使って1始まりに直すのがお薦めだと思う。

"Note"に書いたけど, 完成してからたまたま Google で検索していて, ほとんど同じ時期に Blei 自身がパッケージ LDA-C を公開しているのに気付いた。
ただ, 試してみると, かなり遅く感じる。具体的には, Cranfield 1397記事に対して, 同じ条件で(iteration の数を揃えているので, 少し速め),

lda 23秒34
LDA-C 216秒72

という感じで, lda の方がほぼ10倍くらい速い。lda は必要な内部バッファの最大値をあらかじめ確保して内部のVB-EMにポインタで渡しているのに対して, LDA-C は毎回必要なだけ malloc で確保しているみたいなので, その辺が速度に効いているのかも。
もっと大きなデータを扱うことを考えるとこの速度差はかなり致命的になるので, やっぱり自分で実装して良かった模様。まあ, もともと自分の理解を深める, という意味もあるのでどちらにしてもいいんだけど。
もう一つは (Webには書いていないが),

lda-c% ./lda est 0.01 20 mysettings train random logs
lda-c% cat logs/011.other
num_topics 20
num_terms 1325
alpha 4.6451764357

という感じで, どうもトピックの prior を均一な分布にして (Dir(α₀,α₀,..,α₀) ということ)絶対値だけ推定しているような模様。最近の nonparametric Bayes の方向を考えると, これはちょっと?が付く感じ。 (Bleiがそのことを知らないはずはないので, 何か考えがあるのかも知れないけれど。)

digamma(Ψ), trigamma(Ψ')の実装は Minka の書いたものを使わせてもらっているのだけど, 最初に置いておいたコードをコンパイルした人がいたらわかるように, gamma.c をコンパイルする所で warning が出ます (実際には全く問題ありません)。
この原因は, Ψ関数は負の整数値に対しては∞を返すため (cf. Mathworld/Digamma ), 次のコードが含まれていること。

static const double neginf = - 1.0/0;

調べてみると, このコードは gcc 2.95 では通るが, gcc 3.2以降では warning を吐く模様。
少し調べた結果, 次のように書くとそのまま通ることがわかった。

static const double neginf = - 1.0/0.0;

0 は自動的に double に型変換されるので上でもいいはずなのだけど, 下のように /0.0 と double で割っている場合は自然な結果として, あるいは意図的に∞を返すのであろうのに対して, 上の場合はコーディングミスであることが多かろうということではないか, という予想。 Minka が書いた時は gcc 2.95以前だったので, 警告にならなかったのかも。
他でも nan を返す所で, return 0.0/0.0; とすることで warning が出なくなった。

というわけで, Cで数学的な性質上∞や不定値を返さなければいけない場合 (わかりやすい例だと, tan(x) で x = π/2 + nπ の場合など)では,

#define inf  (1.0/0.0)
#define nan  (0.0/0.0)

としておけば使えるようです。

2004年11月08日(月) [n年日記]

#1 lda, a Latent Dirichlet Allocation package.

2004年11月10日(水) [n年日記]

#1 lda, a Latent Dirichlet Allocation package. (2)

#2 inf/nan

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.