mots quotidiens.

無事NL研の発表が終わって, 京都に帰ってきました。
発表は面白いと言ってくれた方が多く, よかったような気がします。
論文のページに発表資料を置いておきましたので, ご興味のある方はどうぞ。

小町君のブログから来ている人が沢山いるようなので, もし「日本語の文字が全部等確率」というのが気になった人がいたら, そうではないので安心して下さい, ということだけ書いておきます。
正確には文字の生起確率=文字1-gramのさらに事前分布が均一になっているという意味で, どんな漢字や数字が出やすいか(文字1-gram), どんな文字の組み合わせが単語になりやすいか(文字2-gram, 3-gram, 4-gram, …)はすべてモデル化されています。

なお, 発表では言わなかったのですが, 後ろ向き変数βを同様に導入すれば, 文字の間が切れる周辺確率も計算することが可能なはずで *1 , 工藤君が前に出した「ソフト分かち書き」を, 今度は一切辞書等を使わずに実現することができると思います。
形態素解析が切れる/切れないの二値ではなく, 確率的であるべきだというのは, 工藤君の話と独立に僕もずっと思っていて, 今回それを生成モデルの立場から実現できて嬉しく思っています。

その日は東京の実家に泊まったら, 冷蔵庫のホワイトボードに "flammable rubbish" とか書いてあって驚いた。ちょw
「燃えるゴミの日」という意味だと思うけど, パパン, あなた日本人でしょ‥(笑)。

: 現状でも, 単語分割をp(w|s)からサンプリングして平均を取れば, 簡単に計算できます。

2009年03月27日(金) [n年日記]

#1 NL研終了

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.