mots quotidiens.
持橋大地 (Daichi Mochihashi) daichi <at> cslab.kecl.ntt.co.jp by hns, version 2.10-pl1.

先月 2010年02月 来月
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28

2010年01月18日(月) [n年日記]

#1 ランダム生成

あまり前の仕事にこだわるつもりはないのですが, 来週NTT R&Dの偉い人へのプレゼン& NTT言語系内部コロキウム@横須賀でデモをするので, 言語モデルからランダム ウォーク生成してみました。 (実は論文にある通り, 学習の際に単語モデルからモンテカルロ法の中で生成している のですが, あまり真面目に結果を見ていなかった。)

英語の単語モデル(文字∞-gram)から生成した例。(Penn Treebank+オバマ就任演説)

sj:~/work/segment/src% ./spygen -c -n 30 ../model/obama+ptb
varied grain classistor ruminus read headof myhome eastgo smoke
her garry nexty . hunkyu stify feckless s dinnie ener stis pilepar
dottles crash gamble summon abated stoppeduzz muched the dis
おお, いかにもそれっぽいですが, ありそうで, 実際にはない単語が。 個人的には, 単純なn-gramなので, こんなに「英語らしい」単語が生成されるとは 少し意外でした。
次は「しょこたんブログ」からの生成。
sj:~/work/segment/src% ./spygen -c -n 30 ../model/shoko
リンパ きたいから 空間 もう一度 って ぉぉおおぉー 思い出せない いったし
wwwwwww 、 暖冬 とどんそく みえます ぐってた 憧れ だらーり
貼った さん 福本先生様 トリップルパイ 震える 『 覚えて ハート ホテル
(′ωω`) で 天才 メンB 飼う
言うまでもないですが, いわゆる辞書があるわけではないので, 実際に存在する単語 と一致するものがあるのは単なる偶然 (あるいは, モデルが正しく学習されていることを示すもの)です。新しい顔文字が。w

下は源氏物語からの生成(ランダム源氏物語)。

sj:~/work/segment/src% ./spygen -n 5 ../model/genji.n2
ことごとしくもてなさせたまふ。
いとよう思ひしづめて、山深きこと、と思すも、なほ、いともかしこには、同じことに
て、限りある御身には、いとどしく侮らはしく思ひければ、あさましうなりたまひて、
その返り事は見せたてまつりたまへば、ことになかりし儀式、よそほしうひきつづきて、
その世の道理なれど、院の御子の方の人、 「来し方のことなど、我は 、おのづから
御覧じ知らるることもこそ、かやうの御前の花の木どもも、げにいとおもしろし。
大将の宇治に、 「心憂く。
風のつてに見しやどの紅葉をこきまぜて、生ひ先篭れる窓の内なるほどになん。
頼もしげなきやうなりや。
こういうことができるのは生成モデルだからこそなので, 研究的にはおまけとは言え, 面白いなあ, と思います。


2010年01月09日() [n年日記]

#1 信学会誌講座

電子情報通信学会誌の今月号(2010年1月号)に, 前に書いたノンパラメトリック ベイズの講座が載りました。図を沢山入れてわかりやすく書きましたので, ご興味のある方はどうぞ。
信学会の規定でLaTeXの原稿はアップできないらしく, 学会からPDFを購入すると 見れるとのお話を久保さんから聞いたので, 後で購入してPDFを見れるようにする 予定です。

今回は第III回ですが, 第I回の久保さんの階層ベイズモデルのイントロダクションは 10月号に載っていて, 久保さんのページ でPDFが見られるようです。

僕の記事はもともとLaTeX 6ページに収めるつもりで図を2 columnに入れるように ギリギリまで圧縮して書いたのを, 1コラムに展開されてしまったので, 図が僕の意図 より若干大きくなってしまっているのが残念です。その他, 「分かる」が漢字になって いるとか, 「尤度」がひらがなになっているなども信学会の編集の結果のようです。

#2 Reviewing the Reviewers

国際会議の査読が必ずしも高品質とは限らないわけですが *1 , Ken Church が2005年に Computational Linguistics に "Reviewing the Reviewers" という4ページの記事を書いていることを知り, 読んでみました。 別にNLPに限った話ではないので, 他の分野の方が読んでも充分に面白いと思います。

基本的な主張は, よい論文を落とさない(recallを上げる)にはいくつかの方法があるが, 一番なのは Acceptance rate を上げることだ, ということ。rate が20%を割ると, 明らかに良い論文が落ちるようになるらしく, それを簡単な数値実験とともに 示しています。
面白いのは, committee の評価基準として, 「クロスバリデーション」, つまり, committee を入れ替えてみて, 同じ論文が通るかの precision と recall を測る ことができる, という話。実際にどれくらい実行できるかはわからないですが, 「真に良い論文」が埋もれている可能性があり, それを客観的に評価することができる という視点は面白いと思います。他の分野の方にもお薦めです。


*1: 今回の僕のACLの査読はかなりレベルが高くて的確な指摘が多かったですが, 後で聞いてみると, 基本的にレビューアを割り当てたのは鈴木さんらしい。 なるほどすぎる。。

#3 -

寒いなぁと思ってiPhoneの天気アプリを見たら, 精華町は7°だった。 (精華町は例えば大阪難波より常に数度低い。) 一方, ノボシビルスクは-32°Cらしい。シベリア流石すぎる。。

2009年12月09日(水) [n年日記]

#1 言語処理学辞典

共立出版から, 言語処理学辞典 の謹呈本が届きました。 僕は2.1中項目「言語モデル」の担当だったので, 配布されたようです。 普通に買うと35000円だそうなので, 役得というか, 個人で買うというよりは図書館に置いて借り出して読む, ようなものなのかも知れません。
他の章は当然初めて見るので, なるほどなあ, という感じです。

最初に長尾真先生が19ページにわたって書かれている"言語処理の歴史"が, 「自然言語処理これまでのあらすじ」のような感じになっていて興味深く, これが一番の必読かも知れません。 実際に言語処理と共に歩んでこられた長尾先生が10年毎に時代を 分けて書かれていて, 説得力があります。MT Summit が日本発祥だったとか僕は知りま せんでした..。
こう見ると, 自然言語処理は確実に進歩していて *1 , 最後の方に書かれているように, ようやく 言語学が客観的な科学になりつつある, というのにはかなり同意です。
その次の中川先生の"言語処理: 古代から現代へ"も短いですが面白く, 読む価値が高いと思いました。思い切りAnti-Chomsky的に書いてあって, 個人的には 大いに賛成しますが, 時代は変わったなというか。;

ちなみに, 2.1「言語モデル」では森先生&倉田さん(IBM)にnグラムについて詳しく 解説していただいた他, nグラム以外の部分にもヒントが色々散りばめられているので, 興味のある方は眺めていただければ幸いです。


*1: 長尾先生はフレーズベースSMTまで 最近の進歩として書かれていますが, 現在は文法に基づく翻訳が主流になりつつある ので, それは重要な進歩だと思います。

2009年11月27日(金) [n年日記]

#1 産総研Talk

産総研の音楽情報処理のグループ(後藤さんのチーム)に招待いただいて, Talkを してきました。
僕は, 本当はトピックモデルのような意味的なものの方にどちらかというと 関心があるのですが, 最近は(統計的自然言語処理にとって重要なので)Markovモデル的な話をやっていた ので, トピックモデル的な話ができなかったのが残念でしたが..。
位相を入れたいというような鋭い意見も出て, こちらも勉強になりました。

Talkが終わった後, 音楽・音声関係の研究を色々紹介していただきました。 どれも非常に興味深く, なるほど流石と思わせるものばかりでした。
とりあえず, 後藤さんが僕と同じSiliconGraphicsのファンだということがわかって 嬉しかったという(Tezroの本物が!), どうでもいいことを書いてみるテスト。(笑)

・ Simplex plot

スライドを作る時に, 折角なのでMathematicaでディリクレ分布を綺麗にプロットして みることに。
数セミの記事 などではMATLABで原点と(1,0),(0,1)で囲まれる直角二等辺三角形で描いていましたが, 正三角形でないと今一だなあと思っていました。 下の図のように, 直角二等辺三角形を正三角形の内部に射影する線形写像Aを考えると, Aは (1,0),(0,1) をそれぞれ (1,0),(1/2,√3/2) に写すので, A={{1,1/2},{0,√3/2}} です。
そうすると, 逆に正三角形の内部を二等辺三角形に写像する行列は A-1={{1,-1/√3},{0,2/√3}}なので, 次のようなコードでプロットできます。 [dirichlet.ma]

ただ, こうすると正三角形にはなりますが, 一番右(Dir(0.5,0.5,0.5))のように, 境界がどうやってもガタガタになってしまうようです(何か上手いやり方があるのか も知れませんが..)。
筑波の山本先生のところに前に行った時, 山本先生が綺麗なプロットをMathematicaで 描かれていたと記憶しているので聞いてみたところ, 普通に二等辺三角形でプロット しても, 斜辺から視点を取ればそれっぽく見えるようです。その発想はなかった..。;


2009年11月20日(金) [n年日記]

#1 -

KevinがNAACLの締切前なので, 相談を受けたことに関して考えたことを話せずに いるわけですが, そうすると逆に色々アイディアが湧いてきました。
やはり, 色々な意味で黙っておくのは重要かもしれません。


2009年11月18日(水) [n年日記]

#1 九大特別講義

月曜日-火曜日と, 九大で電通大の 長岡先生 の特別講義があるということで, 九大に行ってきました。
休暇にして自腹を切って行こうと思っていたら, なんと竹内先生のご好意で, 九大の予算で行かせていただけることに。有難うございました。_o_
九大の伊都キャンパスは前から遠いと脅かされていたので, 博多からすごく遠いのか と思っていたのですが, 博多・天神から地下鉄直通で30分くらい (地下鉄が地上に出てから15分くらい), 九大学研都市駅からバスで整備された道を15分くらいで, あまりNAISTと変わらない *1 という印象で, 個人的には特に遠いという感じはしませんでした。

ちなみに 9月に 個人的に下関・小倉に行った後, 10月に 九大でIBIS, それと今回に加え, さらにサークルK(関西機械学習勉強会)が今度博多であるかも知れないということで, まさにPolyaの壷状態です。w

大変勉強になったのですが, それと別に休み時間に後ろでTsallis統計の話を伺って いて, 自然言語処理の分野と比べて羨しいというか, 何だかショックを受けました。
何にショックを受けたのか, 夜の飲み会で川喜田さんと話していた時にもうまく 言えなかったのですが, 後で考えていて, 自然言語処理ではあまりに, (言語の) サイエンスを追及している人が少ないということではないか, という気がしました。

ほとんどのNLPの人は, 数理の人のように自然のこんな隠れた数理を知りたいとか, これを知りたいというようなモチベーションが感じられない場合が多いように 思います。とりあえず判別器を作って役に立てばいいや, というような。
今回の講義でも, 休み時間に聞いた話でもそうではないので, それが科学として とても素晴らしいというか, NLPには中々ないなぁと思ったのでした。


*1: NAISTも最近若干変わりましたが, 前はバスで駅まで15分くらい, 大阪の難波まで 電車で30分くらいなので, ほぼ同じくらいです。

2009年11月04日(水) [n年日記]

#1 情報理論

来年に向けて(謎), 情報理論のプロ, 村松さん に色々お話を伺う。
いや, 実に面白かったです。
Wyner-Ziv codingとか全然知らなかったですが, 自然言語処理の人は普通知らないと 思いたいですが..。

7 days displayed.
タイトル一覧
カテゴリ分類
 なかのひと
Powered by hns-2.10-pl1, HyperNikkiSystem Project