mots quotidiens.

電子情報通信学会誌の今月号(2010年1月号)に, 前に書いたノンパラメトリックベイズの講座が載りました。図を沢山入れてわかりやすく書きましたので, ご興味のある方はどうぞ。
信学会の規定でLaTeXの原稿はアップできないらしく, 学会からPDFを購入すると見れるとのお話を久保さんから聞いたので, 後で購入してPDFを見れるようにする予定です。

今回は第III回ですが, 第I回の久保さんの階層ベイズモデルのイントロダクションは 10月号に載っていて, 久保さんのページでPDFが見られるようです。

僕の記事はもともとLaTeX 6ページに収めるつもりで図を2 columnに入れるようにギリギリまで圧縮して書いたのを, 1コラムに展開されてしまったので, 図が僕の意図より若干大きくなってしまっているのが残念です。その他, 「分かる」が漢字になっているとか, 「尤度」がひらがなになっているなども信学会の編集の結果のようです。

Reviewing the Reviewers

国際会議の査読が必ずしも高品質とは限らないわけですが *1 , Ken Church が2005年に Computational Linguistics に "Reviewing the Reviewers" という4ページの記事を書いていることを知り, 読んでみました。別にNLPに限った話ではないので, 他の分野の方が読んでも充分に面白いと思います。

基本的な主張は, よい論文を落とさない(recallを上げる)にはいくつかの方法があるが, 一番なのは Acceptance rate を上げることだ, ということ。rate が20%を割ると, 明らかに良い論文が落ちるようになるらしく, それを簡単な数値実験とともに示しています。
面白いのは, committee の評価基準として, 「クロスバリデーション」, つまり, committee を入れ替えてみて, 同じ論文が通るかの precision と recall を測ることができる, という話。実際にどれくらい実行できるかはわからないですが, 「真に良い論文」が埋もれている可能性があり, それを客観的に評価することができるという視点は面白いと思います。他の分野の方にもお薦めです。

: 今回の僕のACLの査読はかなりレベルが高くて的確な指摘が多かったですが, 後で聞いてみると, 基本的にレビューアを割り当てたのは鈴木さんらしい。なるほどすぎる。。

寒いなぁと思ってiPhoneの天気アプリを見たら, 精華町は7°だった。 (精華町は例えば大阪難波より常に数度低い。) 一方, ノボシビルスクは-32°Cらしい。シベリア流石すぎる。。

[n年日記]

ランダム生成

あまり前の仕事にこだわるつもりはないのですが, 来週NTT R&Dの偉い人へのプレゼン& NTT言語系内部コロキウム＠横須賀でデモをするので, 言語モデルからランダムウォーク生成してみました。 (実は論文にある通り, 学習の際に単語モデルからモンテカルロ法の中で生成しているのですが, あまり真面目に結果を見ていなかった。)

英語の単語モデル(文字∞-gram)から生成した例。(Penn Treebank+オバマ就任演説)

sj:~/work/segment/src% ./spygen -c -n 30 ../model/obama+ptb
varied grain classistor ruminus read headof myhome eastgo smoke
her garry nexty . hunkyu stify feckless s dinnie ener stis pilepar
dottles crash gamble summon abated stoppeduzz muched the dis

おお, いかにもそれっぽいですが, ありそうで, 実際にはない単語が。個人的には, 単純なn-gramなので, こんなに「英語らしい」単語が生成されるとは少し意外でした。
次は「しょこたんブログ」からの生成。

sj:~/work/segment/src% ./spygen -c -n 30 ../model/shoko
リンパ きたいから 空間 もう一度 って ぉぉおおぉー 思い出せない いったし
ｗｗｗｗｗｗｗ 、 暖冬 とどんそく みえます ぐってた 憧れ だらーり
貼った さん 福本先生様 トリップルパイ 震える 『 覚えて ハート ホテル
(′ωω｀) で 天才 メンＢ 飼う

言うまでもないですが, いわゆる辞書があるわけではないので, 実際に存在する単語と一致するものがあるのは単なる偶然 (あるいは, モデルが正しく学習されていることを示すもの)です。新しい顔文字が。w

下は源氏物語からの生成(ランダム源氏物語)。

sj:~/work/segment/src% ./spygen -n 5 ../model/genji.n2
いとよう思ひしづめて、山深きこと、と思すも、なほ、いともかしこには、同じことに
て、限りある御身には、いとどしく侮らはしく思ひければ、あさましうなりたまひて、
その返り事は見せたてまつりたまへば、ことになかりし儀式、よそほしうひきつづきて、
その世の道理なれど、院の御子の方の人、 「来し方のことなど、我は 、おのづから
御覧じ知らるることもこそ、かやうの御前の花の木どもも、げにいとおもしろし。
ことごとしくもてなさせたまふ。
大将の宇治に、 「心憂く。
風のつてに見しやどの紅葉をこきまぜて、生ひ先篭れる窓の内なるほどになん。
頼もしげなきやうなりや。

こういうことができるのは生成モデルだからこそなので, 研究的にはおまけとは言え, 面白いなあ, と思います。

2010年01月09日(土) [n年日記]

#1 信学会誌講座

#2 Reviewing the Reviewers

#3 -

2010年01月18日(月) [n年日記]

#1 ランダム生成

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.