mots quotidiens. | |
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp | by hns, version 2.10-pl1. |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||
今回は第III回ですが, 第I回の久保さんの階層ベイズモデルのイントロダクションは 10月号に載っていて, 久保さんのページ でPDFが見られるようです。
僕の記事はもともとLaTeX 6ページに収めるつもりで図を2 columnに入れるように ギリギリまで圧縮して書いたのを, 1コラムに展開されてしまったので, 図が僕の意図 より若干大きくなってしまっているのが残念です。その他, 「分かる」が漢字になって いるとか, 「尤度」がひらがなになっているなども信学会の編集の結果のようです。
基本的な主張は, よい論文を落とさない(recallを上げる)にはいくつかの方法があるが,
一番なのは Acceptance rate を上げることだ, ということ。rate が20%を割ると,
明らかに良い論文が落ちるようになるらしく, それを簡単な数値実験とともに
示しています。
面白いのは, committee の評価基準として, 「クロスバリデーション」, つまり,
committee を入れ替えてみて, 同じ論文が通るかの precision と recall を測る
ことができる, という話。実際にどれくらい実行できるかはわからないですが,
「真に良い論文」が埋もれている可能性があり, それを客観的に評価することができる
という視点は面白いと思います。他の分野の方にもお薦めです。
英語の単語モデル(文字∞-gram)から生成した例。(Penn Treebank+オバマ就任演説)
sj:~/work/segment/src% ./spygen -c -n 30 ../model/obama+ptb varied grain classistor ruminus read headof myhome eastgo smoke her garry nexty . hunkyu stify feckless s dinnie ener stis pilepar dottles crash gamble summon abated stoppeduzz muched the disおお, いかにもそれっぽいですが, ありそうで, 実際にはない単語が。 個人的には, 単純なn-gramなので, こんなに「英語らしい」単語が生成されるとは 少し意外でした。
sj:~/work/segment/src% ./spygen -c -n 30 ../model/shoko リンパ きたいから 空間 もう一度 って ぉぉおおぉー 思い出せない いったし wwwwwww 、 暖冬 とどんそく みえます ぐってた 憧れ だらーり 貼った さん 福本先生様 トリップルパイ 震える 『 覚えて ハート ホテル (′ωω`) で 天才 メンB 飼う言うまでもないですが, いわゆる辞書があるわけではないので, 実際に存在する単語 と一致するものがあるのは単なる偶然 (あるいは, モデルが正しく学習されていることを示すもの)です。新しい顔文字が。w
下は源氏物語からの生成(ランダム源氏物語)。
sj:~/work/segment/src% ./spygen -n 5 ../model/genji.n2 いとよう思ひしづめて、山深きこと、と思すも、なほ、いともかしこには、同じことに て、限りある御身には、いとどしく侮らはしく思ひければ、あさましうなりたまひて、 その返り事は見せたてまつりたまへば、ことになかりし儀式、よそほしうひきつづきて、 その世の道理なれど、院の御子の方の人、 「来し方のことなど、我は 、おのづから 御覧じ知らるることもこそ、かやうの御前の花の木どもも、げにいとおもしろし。 ことごとしくもてなさせたまふ。 大将の宇治に、 「心憂く。 風のつてに見しやどの紅葉をこきまぜて、生ひ先篭れる窓の内なるほどになん。 頼もしげなきやうなりや。こういうことができるのは生成モデルだからこそなので, 研究的にはおまけとは言え, 面白いなあ, と思います。
タイトル一覧 |