mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp by hns, version 2.10-pl1.

先月 2007年11月 来月
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30

2007年11月12日(月) [n年日記]

#1 Collins

CS研にCollinsが来たので, 夜は
参加予定者(敬称略):
Collins(guest), 磯崎,鈴木,須藤,塚田,平尾,藤野,持橋,安田,山田,渡辺
というCS研NLPオールスターズ?で歓迎会。(その割に途中まで関係ない話を していたような気がしますが‥(笑))

Collins氏は紳士だという話を聞いていたので, もっとおじさんかと思っていた のですが, かなり若い感じの方で驚きました。
昼間のTalkは, 係り受け解析の対数線形モデルの時に, Matrix-Tree theoremで分配関数を逆行列の行列式として計算する という話と, Exponentiated Gradient (EG)の話。 対数線形モデルは専門ではないですが, 大体の感じはわかったような気が します。
岡野原君の話が, Gaussian prior のEGでは解けない Laplacian prior をどうやって解くか, という話なのがよくわかりました。


2007年11月20日(火) [n年日記]

#1 NIPS20

特にアナウンスはなかったのですが, いつの間にかNIPS 2007の Preproceedings (+slide, audio)が公開されているようです。
http://books.nips.cc/nips20.html

面白そうな論文ばかりなのですが, 個人的にAccepted Papersが出た時から 気になっているのは, Zou, Lafferty, Wasserman の "Compressed Regression". これはarXiv.org:stat.MLの59ページの 論文 のごく一部の結果だけ書いたもの(!)。
スパースな高次元(p次元)のn個のデータをそのまま扱うのではなく, これを m<<n個のデータに圧縮しても, L1 least squareの回帰問題の性能がほとんど変わらない ようにする, ということらしい。
元々のモチベーションは, 素性を陽に持っている 巨大なデータを扱う際には情報が秘匿されないので, 秘匿性を保障しつつ, 回帰の性能を落とさないということらしいですが, 自然言語処理等ではデータ自体が 莫大な量になるので, それを圧縮した空間で回帰する(CRF等の対数線形モデルは, 結局回帰問題を解いているわけですが)というのはとても面白いと思う。
もちろんLaffertyの一派の仕事で超難しいので, 僕も中身は全然理解していない ですが..。

他に自然言語処理の話としては, ACL'06で出た, 統計的機械翻訳のIBMモデルの アライメントHMMをLDAで拡張するZhaoのBiTAMをさらに拡張して, HM-BiTAM (Hidden Markov Bilingual Topic Admixture) [pdf] が出ているようです。
HM-BiTAMでは, ある文書に含まれる文e = e_1e_2…e_Iとその翻訳f=f_1f_2…f_Jが, 以下のように生成されたと考えます。

  1. 文書の持つトピック分布θ ~ Dir(α) をサンプル.
  2. 各文ペア(e,f)毎に *1 ,
    1. 文の持つ潜在トピックz ~ Mult(θ)をサンプル.
    2. 潜在トピックzのユニグラム p(e|z) から, eを生成.
    3. For j = 1…J,
      1. f_jに対応するe_iのアライメントをサンプル.
        (場所 j=1…Jについて, 対応する英単語 e_1…e_J が e_1…e_I の中から, 重複を許して決まる.)
      2. 潜在トピックz毎の翻訳確率 p(f|e,z) を使って, e_j から f_j を生成.
このアライメントHMMを変分ベイズで学習すると, 対訳コーパスから の両方が得られて, 上の生成モデルから翻訳文fを作ることができます。
さらに, 実は
p(f|z) = Σe p(f,e|z) = Σep(f|e,z)p(e|z)
なので, 上の二つを使うと, 翻訳先の言語のトピックユニグラム p(f|z) も 計算できます(!)。

これを使うと, 論文の例では, 同じ "meet" でも, 文脈に応じて 「満足する」「会う」「合う」等を訳し分けることが可能になります。
統計翻訳というと, 時々トンチンカンな翻訳を出すというイメージが ありますが, HM-BiTAMで文脈と, 文全体の意味を考慮した翻訳ができるようになり, 「同じ文でも, 置かれている文脈(この場合は文書)によって翻訳結果が異なる」 ということが, *2 やっと完全な形で可能になったのだと思います。素晴らしい。


*1: 実は単語ごとでもいいらしい
*2: これまでの統計的機械翻訳では, 文が完全にバラバラになっており, 文脈を無視して独立に訳されていて, 僕もそれはどうかとずっと思って いました。

2 days displayed.
タイトル一覧
カテゴリ分類
 なかのひと
Powered by hns-2.10-pl1, HyperNikkiSystem Project