mots quotidiens.

比較実験の必要があって, Ruslan Salakhutdinov の Replicated Softmax Model のプログラムを書いた(正確には, 1つだけ公開されているPythonのコードに色々手を入れた)ので, 公開します。

rsm, the Replicated Softmax Model.

Replicated Softmax (Salakhutdinov & Hinton, NIPS 2009)はいわゆる"Deep Net"の一つで, レイヤーが一つの単純なRBMでテキストをモデル化するものです。多層にするなどの色々な細かい改良はありますが, これが事実上の state of the art だと思います。 LDAのような混合モデルより性能が良いと言われていて(最適化が非常に難しいですが, これは僕も確認済み), 文書を潜在的なトピックの組み合わせの1/0のビットパターンで表現します。 *1

上のコードは, http://www.fylance.de/rsm/ で唯一公開されていたPythonのコードを色々拡張して使えるようにしたもの。これは NumPy で書かれているので, Pythonですが, 処理の割には非常に高速に動作します。実は自分でC言語で書き直してみましたが, 処理速度はほぼ同等でした。(!)
NumPyは文書データのようなスパースな行列もフルで持つので, かなりメモリを食いますが, C言語だと工夫するとメモリ消費量は非常に小さくできます (具体的には, 700MB->30MBくらいになる)。ただ, そうすると大きなデータを食わせられますが, 大きいデータはいずれにしても iterationが超重くなるので, 見通しがよいPython版のみ公開することにしました。

実際にやってみると, RBM共通らしいですが, まず局所解が非常に多く, かなりパラメータを工夫しないとまともなパープレキシティが出ない, ということがわかります。
一方で文書の hidden activation が行列計算一回で出るというのは面白く, 上のページでもそれを行うスクリプトを同梱しておきました。これを見ると, シグモイド関数にかかるので1/0とは限らず, 0.5とか0.7とかも出るのかと思っていたら, 実際にはほとんどの場合にactivationは0か1になってしまうのが印象的でした。これでは中々最適化は難しいだろう, という。
僕の今やっている話はこういう問題がなく, MCMCでスルスルと最適化してやはり LDA以上の性能が出るのですが, それはまた後でということで。

: 基本的には Gehler の RaP (Rate Adapting Poisson)モデルと同じですが, RaPは文書の単語頻度のポアソン分布の期待値を出力するため, 文書長が同じでないと使えないのに対し, RSMは多項分布なので長さに関わらず使える, というのが唯一違う点です。

2013年06月29日(土) [n年日記]

#1 Replicated Softmax Model

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.