mots quotidiens. | |
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp | by hns, version 2.10-pl1. |
|
||||||||||||||||||||||||||||||||||||||||||||||||||
ぷは。
少し余裕ができたので, 1ヶ月くらい前に
Finkel
のところで読めるようになった
"The Infinite Tree"
(ACL 2007)を読んでみた。
はっきり言って非常に読みにくいので, 以下に自分用の意味もこめて整理。
ACLのAccepted Paperが出た時にタイトルを見てギクッとしたわけですが,
最初に書いておくと, これは僕の話とは全然関係ありません。
タイトルを見ると, 僕の話のように木の深さが無限であるかのような誤解をして
しまいますが, 実はこの場合の木は構文木なので有限で
(それどころか, 木構造自体はgivenだとしている), ただ木のタグ
(文法的な解析では, NPとかVPとか人間が与えているもの) の種類数に上限がない,
という話。
まずモチベーションは, 通常の文法的なタグは粗すぎたり, 逆に細かすぎたりする
ので, それを「データの複雑性に沿って」ノンパラメトリックベイズで自動的に決め
たい, ということ。
木構造がPTBのように与えられているとすると, 問題はただ, 木の各ノードにどんな
タグ(1,2,…,∞)を振るか, という話だけになる。
たとえば,
<- ----> / \/ \ * * *<--* | | | | She ate the cake.
という風に木ができている時, 普通は順に木の各ノードに, 順に NN, VP, DT, NN というラベルを振るが, このとき木全体の確率は, ノード間が親子になる確率×ノードから単語が出力される確率で,
L = p(NN|VP)p(NN|VP)p(DT|NN)×p(she|NN)p(ate|VP)p(the|DT)p(cake|NN)
のようになる(実際は再帰的に書ける)。 *1
いま, ラベルが有限で人が与えている場合は上のp(NN|VP)のような確率はコーパス から計算すればいいが, これが未知で, 可算無限個だった場合はどうするか, というのがここでの問題。つまり, 各カテゴリに自然数を振って, p(1|2)p(1|2)p(3|1).. のような確率が最も確からしい割り当てを選ぶことに なる。
これは要するに, タグjがタグkの子供になる確率 p(j|k) を行列にして,j 1 2 3 4 5 6 .. +----------------- 1 | k 2 | 3 | : |という可変長のテーブルと, タグkからの単語の出力確率, それに従ったノードのタグを求める話になる。
タイトルもそうだが, 論文の最後に "permit completely unsupervised learning
of dependency structure"と書いてあるので, 依存構造木をunsupervisedで学習して
タグをつける話なのかと思っていたら, 木はもう与えられていて, 単にそのタグ付け
を決める話だけだった。脱力。
*2
Liang の "Infinite PCFG using HDP"
(EMNLP 2007)
[link]
の方がずっとレベルが高そうな話で,
こちらの方が本来ACLにふさわしい話だと思うが, Infinite PCFGは全力でまともな
内容を書いているので(PCFG-HMM, HDP-HMM, Structured Mean Field), ACLの
レビューアが理解できなかったのではないか, と想像。
Finkelの方は, DPやHDPの説明を途中で長々としていて(それを端折ると, 上のように
単純な説明になる), 難しくてスミマセンネ, のような内容まで最後に書いてある。
*3
HPYLMの話もそうだったし,
そこまで子供に書くように書かないと通らないなんて, ACLっていったい..
と思ってしまった。
最近(だいたい1年半くらい前)にオープンした, 光台の
けいはんなユータウン
に入っている書店, ACADEMIA けいはんな店にこの間とこの日, 初めて入ってみた。
出来てすぐから存在は知っていたが, 「ACADEMIA? どうせ名前だけじゃないの?
やまざき貴子の漫画じゃないんだからさ…」と思っていたのだが..
..すいませんなめてました。
鄙には稀な, 旭屋書店のような都会の専門店なみの品揃えで驚いた。
普通の地方の本屋にはまず置いていない, みすず書房の本(全部ではないですが)や,
白水社クセジュ文庫のようなものまで置いてある。
調べると,
くまざわ書店
の展開のうち, 全国に数個所あるACADEMIA店の一つらしい。
普通の本はもちろん, 文芸書, 科学書とも非常に充実している。 例えば 「自然界における左と右」 とかが普通に置いてあるわけですが, 特に子供にとっては, 都会に出て大型書店に行ったりするのは無理なので, こういう 本が普通に近くの本屋に置いてあるというのは素晴らしいなあ, と思ってしまった。 特に子供の頃は, 実際にいい本が並んでいる場所(書店や図書館)に行って良いと 思う本を選んで読む, というのはとても大事だと思う。
ただ, いくら光台が研究所が多く, 住民のレベルが高い(らしい) *1 とは言っても, 本当にこれで採算がとれてやっていけるのかなあ.. と少し 心配してしまった。
タイトル一覧 |