MS Research の
Jianfeng Gao 氏のページ
で, かな漢字変換の評価用データセット MSR IME Corpus
が公開されているのを知った。
中身は日経新聞と共同通信からのそれぞれ3000文の読みと正解の変換結果,
100-bestの変換結果のセットからなっています。
(鈴木久美さんがコンパイルされたらしい。)
mecab-skkserv
のようなかな漢字変換の評価に使えそうです。
関連論文は HLT/EMNLP 2005 の
これ。
この論文では単純な線形補間よりも perceptron や boosting
を使った言語モデルの適応の方が性能がよかったと報告されている。
ただざっと読んだ限り, ベイジアンの立場から言うと, ヘルドアウトデータから
求めた常に一定の補完をするような単純な方法はデータの動的な性質を利用していない
ので, 上手くいかないのは当たり前で, もっと動的に補完比率を変えられるのが
事後確率を使う方法の利点だと思う。そういう意味で, 上の論文を読んで
discriminative method が常によいと考えてしまうのは早計かと。
それから, 素性関数の線形和を使って確率に変換するMEのような方法は
本質的に product model だと言えるので, 確率密度が一部に集中するため,
適応のような問題には, 少なくとも一様な線形補完(確率密度がさらに diffuse になる)
より合っているのは自明かな, という気も少ししました。
(参考:
Hintonの Products of Experts のスライド
)