mots quotidiens.

MS Research の Jianfeng Gao 氏のページで, かな漢字変換の評価用データセット MSR IME Corpus が公開されているのを知った。
中身は日経新聞と共同通信からのそれぞれ3000文の読みと正解の変換結果, 100-bestの変換結果のセットからなっています。 (鈴木久美さんがコンパイルされたらしい。) mecab-skkserv のようなかな漢字変換の評価に使えそうです。

関連論文は HLT/EMNLP 2005 のこれ。この論文では単純な線形補間よりも perceptron や boosting を使った言語モデルの適応の方が性能がよかったと報告されている。
ただざっと読んだ限り, ベイジアンの立場から言うと, ヘルドアウトデータから求めた常に一定の補完をするような単純な方法はデータの動的な性質を利用していないので, 上手くいかないのは当たり前で, もっと動的に補完比率を変えられるのが事後確率を使う方法の利点だと思う。そういう意味で, 上の論文を読んで discriminative method が常によいと考えてしまうのは早計かと。
それから, 素性関数の線形和を使って確率に変換するMEのような方法は本質的に product model だと言えるので, 確率密度が一部に集中するため, 適応のような問題には, 少なくとも一様な線形補完(確率密度がさらに diffuse になる) より合っているのは自明かな, という気も少ししました。 (参考: Hintonの Products of Experts のスライド )

2006年04月17日(月) [n年日記]

#1 IME

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.