mots quotidiens. | |
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp | by hns, version 2.10-pl1. |
|
|||||||||||||||||||||||||||||||||||||||||||||||||
同時に45秒までmp3形式の audio がつけられるとの話で, 僕は使わなかったの
ですが,
こんな風
にしたらどうだろう, とか一瞬思ってしまった。(w
もちろんこれはジョークで, 実際に作ったSpotlightスライドは
論文のページ
に上げておきました。
凩の果てはありけり海の音 言水
参加予定者(敬称略): Collins(guest), 磯崎,鈴木,須藤,塚田,平尾,藤野,持橋,安田,山田,渡辺というCS研NLPオールスターズ?で歓迎会。(その割に途中まで関係ない話を していたような気がしますが‥(笑))
Collins氏は紳士だという話を聞いていたので, もっとおじさんかと思っていた
のですが, かなり若い感じの方で驚きました。
昼間のTalkは, 係り受け解析の対数線形モデルの時に,
Matrix-Tree theoremで分配関数を逆行列の行列式として計算する
という話と, Exponentiated Gradient (EG)の話。
対数線形モデルは専門ではないですが, 大体の感じはわかったような気が
します。
岡野原君の話が, Gaussian prior のEGでは解けない Laplacian prior
をどうやって解くか, という話なのがよくわかりました。
面白そうな論文ばかりなのですが, 個人的にAccepted Papersが出た時から
気になっているのは, Zou, Lafferty, Wasserman の "Compressed Regression".
これはarXiv.org:stat.MLの59ページの
論文
のごく一部の結果だけ書いたもの(!)。
スパースな高次元(p次元)のn個のデータをそのまま扱うのではなく, これを
m<<n個のデータに圧縮しても, L1 least squareの回帰問題の性能がほとんど変わらない
ようにする, ということらしい。
元々のモチベーションは, 素性を陽に持っている
巨大なデータを扱う際には情報が秘匿されないので, 秘匿性を保障しつつ,
回帰の性能を落とさないということらしいですが, 自然言語処理等ではデータ自体が
莫大な量になるので, それを圧縮した空間で回帰する(CRF等の対数線形モデルは,
結局回帰問題を解いているわけですが)というのはとても面白いと思う。
もちろんLaffertyの一派の仕事で超難しいので, 僕も中身は全然理解していない
ですが..。
他に自然言語処理の話としては, ACL'06で出た, 統計的機械翻訳のIBMモデルの
アライメントHMMをLDAで拡張するZhaoのBiTAMをさらに拡張して, HM-BiTAM
(Hidden Markov Bilingual Topic Admixture)
[pdf]
が出ているようです。
HM-BiTAMでは, ある文書に含まれる文e = e_1e_2…e_Iとその翻訳f=f_1f_2…f_Jが,
以下のように生成されたと考えます。
p(f|z) = Σe p(f,e|z) = Σep(f|e,z)p(e|z)なので, 上の二つを使うと, 翻訳先の言語のトピックユニグラム p(f|z) も 計算できます(!)。
これを使うと, 論文の例では, 同じ "meet" でも, 文脈に応じて
「満足する」「会う」「合う」等を訳し分けることが可能になります。
統計翻訳というと, 時々トンチンカンな翻訳を出すというイメージが
ありますが, HM-BiTAMで文脈と, 文全体の意味を考慮した翻訳ができるようになり,
「同じ文でも, 置かれている文脈(この場合は文書)によって翻訳結果が異なる」
ということが,
*2
やっと完全な形で可能になったのだと思います。素晴らしい。
タイトル一覧 |