mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp by hns, version 2.10-pl1.

先月 2024年05月 来月
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

2009年03月10日(火) [n年日記]

#1 教師なし形態素解析

というわけで, 書き終わりました。
「ベイズ階層言語モデルによる教師なし形態素解析」
持橋大地, 山田武士, 上田修功. SIGNL-190, to appear.

今回からNL研はペーパーレスになったので, もう少しすると情報処理学会のNL研の ページにアップされると思いますが, もう特許も出し終わっていて問題ないので, 論文を置いておきます。
発表は3/25(水) [プログラム] なので, ご興味のある方はお聞き下さい。
nl190segment.pdf

「源氏物語」の形態素解析は, 論文にない別の所を上げると, こんな感じです。(「須磨」)
源氏物語に教師データなんてものは存在しないので, すべて完全に教師なしで推定したものです(辞書も使っていません)。

須磨 に は 、 いとど 心づくし の 秋 風 に 、 海 は すこし 遠 けれど 、 行平の中納
言 の 、 関 吹き 越 ゆると 言ひけん 浦波 、 夜 々 は げに いと 近 く 聞こえ て 、
また な く あはれ なる もの は 、 かかる 所 の 秋 なり けり 。
御 前 に いと 人少な に て 、 うち 休み わた れ る に 、 独り 目を さま し て 、
枕をそばだてて 四方の 嵐 を 聞き たまふ に 、 波 ただ ここ もとに 立ち くる 心地
して 、 涙落つ と も おぼえ ぬ に 枕 浮く ばかり に な り に けり 。…
源氏物語は全部で16000文程度と, 教師なし学習のデータとしては少ない ので結合してしまっている部分がありますが, 何も教えていないのに充分うまく切れているなあ, という気がします。


1 days displayed.
タイトル一覧
カテゴリ分類
 なかのひと
Powered by hns-2.10-pl1, HyperNikkiSystem Project