mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp by hns, version 2.10-pl1.

先月 2009年03月 来月
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31

2009年03月27日(金) [n年日記]

#1 NL研終了

無事NL研の発表が終わって, 京都に帰ってきました。
発表は面白いと言ってくれた方が多く, よかったような気がします。
論文のページ に発表資料を置いておきましたので, ご興味のある方はどうぞ。

小町君のブログから来ている人が沢山いるようなので, もし「日本語の文字が全部等確率」というのが気になった人がいたら, そうではない ので安心して下さい, ということだけ書いておきます。
正確には文字の生起確率=文字1-gramのさらに事前分布が均一になっているという 意味で, どんな漢字や数字が出やすいか(文字1-gram), どんな文字の組み合わせが 単語になりやすいか(文字2-gram, 3-gram, 4-gram, …)はすべてモデル化されて います。

なお, 発表では言わなかったのですが, 後ろ向き変数βを同様に導入すれば, 文字の間が切れる周辺確率も計算することが可能なはずで *1 , 工藤君が前に出した 「ソフト分かち書き」 を, 今度は一切辞書等を使わずに実現することができると思います。
形態素解析が切れる/切れないの二値ではなく, 確率的であるべきだというのは, 工藤君の話と独立に僕もずっと思っていて, 今回それを生成モデルの立場から実現できて嬉しく思っています。

その日は東京の実家に泊まったら, 冷蔵庫のホワイトボードに "flammable rubbish" とか書いてあって驚いた。ちょw
「燃えるゴミの日」という意味だと思うけど, パパン, あなた日本人でしょ‥(笑)。


*1: 現状でも, 単語分割をp(w|s)からサンプリングして平均を取れば, 簡単に計算できます。

1 days displayed.
タイトル一覧
カテゴリ分類
 なかのひと
Powered by hns-2.10-pl1, HyperNikkiSystem Project