|
mots quotidiens. | |
| 持橋大地 (Daichi Mochihashi) daichi <at> cslab.kecl.ntt.co.jp | by hns, version 2.10-pl1. |
|
||||||||||||||||||||||||||||||||||||||||||||
英語の単語モデル(文字∞-gram)から生成した例。(Penn Treebank+オバマ就任演説)
sj:~/work/segment/src% ./spygen -c -n 30 ../model/obama+ptb varied grain classistor ruminus read headof myhome eastgo smoke her garry nexty . hunkyu stify feckless s dinnie ener stis pilepar dottles crash gamble summon abated stoppeduzz muched the disおお, いかにもそれっぽいですが, ありそうで, 実際にはない単語が。 個人的には, 単純なn-gramなので, こんなに「英語らしい」単語が生成されるとは 少し意外でした。
sj:~/work/segment/src% ./spygen -c -n 30 ../model/shoko リンパ きたいから 空間 もう一度 って ぉぉおおぉー 思い出せない いったし wwwwwww 、 暖冬 とどんそく みえます ぐってた 憧れ だらーり 貼った さん 福本先生様 トリップルパイ 震える 『 覚えて ハート ホテル (′ωω`) で 天才 メンB 飼う言うまでもないですが, いわゆる辞書があるわけではないので, 実際に存在する単語 と一致するものがあるのは単なる偶然 (あるいは, モデルが正しく学習されていることを示すもの)です。新しい顔文字が。w
下は源氏物語からの生成(ランダム源氏物語)。
sj:~/work/segment/src% ./spygen -n 5 ../model/genji.n2 ことごとしくもてなさせたまふ。 いとよう思ひしづめて、山深きこと、と思すも、なほ、いともかしこには、同じことに て、限りある御身には、いとどしく侮らはしく思ひければ、あさましうなりたまひて、 その返り事は見せたてまつりたまへば、ことになかりし儀式、よそほしうひきつづきて、 その世の道理なれど、院の御子の方の人、 「来し方のことなど、我は 、おのづから 御覧じ知らるることもこそ、かやうの御前の花の木どもも、げにいとおもしろし。 大将の宇治に、 「心憂く。 風のつてに見しやどの紅葉をこきまぜて、生ひ先篭れる窓の内なるほどになん。 頼もしげなきやうなりや。こういうことができるのは生成モデルだからこそなので, 研究的にはおまけとは言え, 面白いなあ, と思います。
今回は第III回ですが, 第I回の久保さんの階層ベイズモデルのイントロダクションは 10月号に載っていて, 久保さんのページ でPDFが見られるようです。
僕の記事はもともとLaTeX 6ページに収めるつもりで図を2 columnに入れるように ギリギリまで圧縮して書いたのを, 1コラムに展開されてしまったので, 図が僕の意図 より若干大きくなってしまっているのが残念です。その他, 「分かる」が漢字になって いるとか, 「尤度」がひらがなになっているなども信学会の編集の結果のようです。
基本的な主張は, よい論文を落とさない(recallを上げる)にはいくつかの方法があるが,
一番なのは Acceptance rate を上げることだ, ということ。rate が20%を割ると,
明らかに良い論文が落ちるようになるらしく, それを簡単な数値実験とともに
示しています。
面白いのは, committee の評価基準として, 「クロスバリデーション」, つまり,
committee を入れ替えてみて, 同じ論文が通るかの precision と recall を測る
ことができる, という話。実際にどれくらい実行できるかはわからないですが,
「真に良い論文」が埋もれている可能性があり, それを客観的に評価することができる
という視点は面白いと思います。他の分野の方にもお薦めです。
![]() | ![]() |
最初に長尾真先生が19ページにわたって書かれている"言語処理の歴史"が,
「自然言語処理これまでのあらすじ」のような感じになっていて興味深く,
これが一番の必読かも知れません。
実際に言語処理と共に歩んでこられた長尾先生が10年毎に時代を
分けて書かれていて, 説得力があります。MT Summit が日本発祥だったとか僕は知りま
せんでした..。
こう見ると, 自然言語処理は確実に進歩していて
*1
, 最後の方に書かれているように, ようやく
言語学が客観的な科学になりつつある, というのにはかなり同意です。
その次の中川先生の"言語処理: 古代から現代へ"も短いですが面白く,
読む価値が高いと思いました。思い切りAnti-Chomsky的に書いてあって, 個人的には
大いに賛成しますが, 時代は変わったなというか。;
ちなみに, 2.1「言語モデル」では森先生&倉田さん(IBM)にnグラムについて詳しく 解説していただいた他, nグラム以外の部分にもヒントが色々散りばめられているので, 興味のある方は眺めていただければ幸いです。
Talkが終わった後, 音楽・音声関係の研究を色々紹介していただきました。
どれも非常に興味深く, なるほど流石と思わせるものばかりでした。
とりあえず, 後藤さんが僕と同じSiliconGraphicsのファンだということがわかって
嬉しかったという(Tezroの本物が!), どうでもいいことを書いてみるテスト。(笑)
![]() | ![]() | ![]() |
ちなみに 9月に 個人的に下関・小倉に行った後, 10月に 九大でIBIS, それと今回に加え, さらにサークルK(関西機械学習勉強会)が今度博多であるかも知れないということで, まさにPolyaの壷状態です。w
大変勉強になったのですが, それと別に休み時間に後ろでTsallis統計の話を伺って
いて,
自然言語処理の分野と比べて羨しいというか, 何だかショックを受けました。
何にショックを受けたのか, 夜の飲み会で川喜田さんと話していた時にもうまく
言えなかったのですが, 後で考えていて, 自然言語処理ではあまりに, (言語の)
サイエンスを追及している人が少ないということではないか, という気がしました。
ほとんどのNLPの人は, 数理の人のように自然のこんな隠れた数理を知りたいとか,
これを知りたいというようなモチベーションが感じられない場合が多いように
思います。とりあえず判別器を作って役に立てばいいや, というような。
今回の講義でも, 休み時間に聞いた話でもそうではないので, それが科学として
とても素晴らしいというか, NLPには中々ないなぁと思ったのでした。
| タイトル一覧 | |