無事NL研の発表が終わって, 京都に帰ってきました。
発表は面白いと言ってくれた方が多く, よかったような気がします。
論文のページ
に発表資料を置いておきましたので, ご興味のある方はどうぞ。
小町君のブログから来ている人が沢山いるようなので,
もし「日本語の文字が全部等確率」というのが気になった人がいたら, そうではない
ので安心して下さい, ということだけ書いておきます。
正確には文字の生起確率=文字1-gramのさらに事前分布が均一になっているという
意味で, どんな漢字や数字が出やすいか(文字1-gram), どんな文字の組み合わせが
単語になりやすいか(文字2-gram, 3-gram, 4-gram, …)はすべてモデル化されて
います。
なお, 発表では言わなかったのですが, 後ろ向き変数βを同様に導入すれば,
文字の間が切れる周辺確率も計算することが可能なはずで
*1
, 工藤君が前に出した
「ソフト分かち書き」
を, 今度は一切辞書等を使わずに実現することができると思います。
形態素解析が切れる/切れないの二値ではなく, 確率的であるべきだというのは,
工藤君の話と独立に僕もずっと思っていて,
今回それを生成モデルの立場から実現できて嬉しく思っています。
その日は東京の実家に泊まったら, 冷蔵庫のホワイトボードに
"flammable rubbish" とか書いてあって驚いた。ちょw
「燃えるゴミの日」という意味だと思うけど, パパン, あなた日本人でしょ‥(笑)。
*1: 現状でも,
単語分割をp(w|s)からサンプリングして平均を取れば, 簡単に計算できます。