mots quotidiens.

特にアナウンスはなかったのですが, いつの間にかNIPS 2007の Preproceedings (+slide, audio)が公開されているようです。
http://books.nips.cc/nips20.html

面白そうな論文ばかりなのですが, 個人的にAccepted Papersが出た時から気になっているのは, Zou, Lafferty, Wasserman の "Compressed Regression". これはarXiv.org:stat.MLの59ページの論文のごく一部の結果だけ書いたもの(!)。
スパースな高次元(p次元)のn個のデータをそのまま扱うのではなく, これを m<<n個のデータに圧縮しても, L1 least squareの回帰問題の性能がほとんど変わらないようにする, ということらしい。
元々のモチベーションは, 素性を陽に持っている巨大なデータを扱う際には情報が秘匿されないので, 秘匿性を保障しつつ, 回帰の性能を落とさないということらしいですが, 自然言語処理等ではデータ自体が莫大な量になるので, それを圧縮した空間で回帰する(CRF等の対数線形モデルは, 結局回帰問題を解いているわけですが)というのはとても面白いと思う。
もちろんLaffertyの一派の仕事で超難しいので, 僕も中身は全然理解していないですが..。

他に自然言語処理の話としては, ACL'06で出た, 統計的機械翻訳のIBMモデルのアライメントHMMをLDAで拡張するZhaoのBiTAMをさらに拡張して, HM-BiTAM (Hidden Markov Bilingual Topic Admixture) [pdf] が出ているようです。
HM-BiTAMでは, ある文書に含まれる文e = e_1e_2…e_Iとその翻訳f=f_1f_2…f_Jが, 以下のように生成されたと考えます。

文書の持つトピック分布θ ~ Dir(α) をサンプル.
各文ペア(e,f)毎に *1 ,
1. 文の持つ潜在トピックz ~ Mult(θ)をサンプル.
2. 潜在トピックzのユニグラム p(e|z) から, eを生成.
3. For j = 1…J,
  1. f_jに対応するe_iのアライメントをサンプル.
    (場所 j=1…Jについて, 対応する英単語 e_1…e_J が e_1…e_I の中から, 重複を許して決まる.)
  2. 潜在トピックz毎の翻訳確率 p(f|e,z) を使って, e_j から f_j を生成.

このアライメントHMMを変分ベイズで学習すると, 対訳コーパスから

潜在トピック毎のユニグラム p(e|z)
潜在トピック毎の翻訳確率行列 p(f|e,z)

の両方が得られて, 上の生成モデルから翻訳文fを作ることができます。
さらに, 実は

p(f|z) = Σ_e p(f,e|z) = Σ_ep(f|e,z)p(e|z)

なので, 上の二つを使うと, 翻訳先の言語のトピックユニグラム p(f|z) も計算できます(!)。

これを使うと, 論文の例では, 同じ "meet" でも, 文脈に応じて「満足する」「会う」「合う」等を訳し分けることが可能になります。
統計翻訳というと, 時々トンチンカンな翻訳を出すというイメージがありますが, HM-BiTAMで文脈と, 文全体の意味を考慮した翻訳ができるようになり, 「同じ文でも, 置かれている文脈(この場合は文書)によって翻訳結果が異なる」ということが, *2 やっと完全な形で可能になったのだと思います。素晴らしい。

: 実は単語ごとでもいいらしい
: これまでの統計的機械翻訳では, 文が完全にバラバラになっており, 文脈を無視して独立に訳されていて, 僕もそれはどうかとずっと思っていました。

2009年11月20日(金) [n年日記]

#1 -

2007年11月20日(火) [n年日記]

#1 NIPS20

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.