mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp by hns, version 2.10-pl1.

先月 2024年04月 来月
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

2009年11月20日(金) [n年日記]

#1 -

KevinがNAACLの締切前なので, 相談を受けたことに関して考えたことを話せずに いるわけですが, そうすると逆に色々アイディアが湧いてきました。
やはり, 色々な意味で黙っておくのは重要かもしれません。


2007年11月20日(火) [n年日記]

#1 NIPS20

特にアナウンスはなかったのですが, いつの間にかNIPS 2007の Preproceedings (+slide, audio)が公開されているようです。
http://books.nips.cc/nips20.html

面白そうな論文ばかりなのですが, 個人的にAccepted Papersが出た時から 気になっているのは, Zou, Lafferty, Wasserman の "Compressed Regression". これはarXiv.org:stat.MLの59ページの 論文 のごく一部の結果だけ書いたもの(!)。
スパースな高次元(p次元)のn個のデータをそのまま扱うのではなく, これを m<<n個のデータに圧縮しても, L1 least squareの回帰問題の性能がほとんど変わらない ようにする, ということらしい。
元々のモチベーションは, 素性を陽に持っている 巨大なデータを扱う際には情報が秘匿されないので, 秘匿性を保障しつつ, 回帰の性能を落とさないということらしいですが, 自然言語処理等ではデータ自体が 莫大な量になるので, それを圧縮した空間で回帰する(CRF等の対数線形モデルは, 結局回帰問題を解いているわけですが)というのはとても面白いと思う。
もちろんLaffertyの一派の仕事で超難しいので, 僕も中身は全然理解していない ですが..。

他に自然言語処理の話としては, ACL'06で出た, 統計的機械翻訳のIBMモデルの アライメントHMMをLDAで拡張するZhaoのBiTAMをさらに拡張して, HM-BiTAM (Hidden Markov Bilingual Topic Admixture) [pdf] が出ているようです。
HM-BiTAMでは, ある文書に含まれる文e = e_1e_2…e_Iとその翻訳f=f_1f_2…f_Jが, 以下のように生成されたと考えます。

  1. 文書の持つトピック分布θ ~ Dir(α) をサンプル.
  2. 各文ペア(e,f)毎に *1 ,
    1. 文の持つ潜在トピックz ~ Mult(θ)をサンプル.
    2. 潜在トピックzのユニグラム p(e|z) から, eを生成.
    3. For j = 1…J,
      1. f_jに対応するe_iのアライメントをサンプル.
        (場所 j=1…Jについて, 対応する英単語 e_1…e_J が e_1…e_I の中から, 重複を許して決まる.)
      2. 潜在トピックz毎の翻訳確率 p(f|e,z) を使って, e_j から f_j を生成.
このアライメントHMMを変分ベイズで学習すると, 対訳コーパスから の両方が得られて, 上の生成モデルから翻訳文fを作ることができます。
さらに, 実は
p(f|z) = Σe p(f,e|z) = Σep(f|e,z)p(e|z)
なので, 上の二つを使うと, 翻訳先の言語のトピックユニグラム p(f|z) も 計算できます(!)。

これを使うと, 論文の例では, 同じ "meet" でも, 文脈に応じて 「満足する」「会う」「合う」等を訳し分けることが可能になります。
統計翻訳というと, 時々トンチンカンな翻訳を出すというイメージが ありますが, HM-BiTAMで文脈と, 文全体の意味を考慮した翻訳ができるようになり, 「同じ文でも, 置かれている文脈(この場合は文書)によって翻訳結果が異なる」 ということが, *2 やっと完全な形で可能になったのだと思います。素晴らしい。


*1: 実は単語ごとでもいいらしい
*2: これまでの統計的機械翻訳では, 文が完全にバラバラになっており, 文脈を無視して独立に訳されていて, 僕もそれはどうかとずっと思って いました。

2 days displayed.
タイトル一覧
カテゴリ分類
 なかのひと
Powered by hns-2.10-pl1, HyperNikkiSystem Project