というわけで, 書き終わりました。
「ベイズ階層言語モデルによる教師なし形態素解析」
持橋大地, 山田武士, 上田修功. SIGNL-190, to appear.
今回からNL研はペーパーレスになったので, もう少しすると情報処理学会のNL研の
ページにアップされると思いますが,
もう特許も出し終わっていて問題ないので, 論文を置いておきます。
発表は3/25(水)
[プログラム]
なので, ご興味のある方はお聞き下さい。
nl190segment.pdf
「源氏物語」の形態素解析は, 論文にない別の所を上げると,
こんな感じです。(「須磨」)
源氏物語に教師データなんてものは存在しないので,
すべて完全に教師なしで推定したものです(辞書も使っていません)。
須磨 に は 、 いとど 心づくし の 秋 風 に 、 海 は すこし 遠 けれど 、 行平の中納
言 の 、 関 吹き 越 ゆると 言ひけん 浦波 、 夜 々 は げに いと 近 く 聞こえ て 、
また な く あはれ なる もの は 、 かかる 所 の 秋 なり けり 。
御 前 に いと 人少な に て 、 うち 休み わた れ る に 、 独り 目を さま し て 、
枕をそばだてて 四方の 嵐 を 聞き たまふ に 、 波 ただ ここ もとに 立ち くる 心地
して 、 涙落つ と も おぼえ ぬ に 枕 浮く ばかり に な り に けり 。…
源氏物語は全部で16000文程度と, 教師なし学習のデータとしては少ない
ので結合してしまっている部分がありますが,
何も教えていないのに充分うまく切れているなあ, という気がします。