mots quotidiens.

NAACL/HLT 2009に出る予定の論文, "Global Models of Document Structure Using Latent Permutations" [pdf] [code] が面白そうだったので, 読んでみた。
若干仮定が強すぎたりする面はありますが, 興味深い話で, 理解を深めるためにこの場所を使って整理。
これは一言で言うと, 潜在トピックの表れる順序に一般化Mallows Modelを仮定して文書構造を表現する, という話で, 実は自然言語処理一般に有益な可能性がある話だと思う。

Mallows Modelが順序の確率分布だということは前から知っていたものの, ランキングの研究をしているわけではないので, 自分にはとりあえず関係ないと思ってこれまでスルーしていた。

Barzilayのグループは以前から文書構造の研究をしていますが, 今回は新しい話で, 「潜在変数の表れる順番には一定の確率的なパターンがある」ことをモデル化していることになっている。
LDAのようなbag of wordsのモデルはトピックがバラバラになってしまうので, トピックの順番を考慮する方法としては潜在トピックにHMMを仮定するHT-HMMなどがあった *1 ものの, HMMでは前後の局所的な繋がりだけしか見ないので, 文書全体として前半にはこんな話が現れやすい, 最後にはこんな話題が出やすい, というような全体的な文書構造はモデル化できない。この話では, データを特定のドメイン(Wikipediaの記事など)に限った上で, 各パラグラフに一つの潜在トピックを割り当て, *2 その順番に一定のパターンがあるというモデル化になっている。

一般化Mallows Model(GMM)は, あるcanonicalな順序から外れるほど確率が低くなる, というような確率分布で, 潜在変数の場合にはラベリングは自由なので, K個の潜在トピックのcanonicalな順序を [1 2 .. K] としても一般性を失わない。(中には使われないトピックもある。) *3
このとき, p = [2 1 4 .. K] のような順序の確率は, GMMに従うと

GMM(p|w) = exp(-Σ_j w_j v_j) / ψ(w)

と計算できる。ここで v_j はpの各要素がcanonicalな順序を破っている回数で, GMMはケンドールの相関係数τを, 重みwを使って一般化したものになっているようだ。(以下知っている人は飛ばして下さい。)
MATLABで書くと, 下のようなコードになる。

function q = mallows(w,p)
% q = mallows(w,p)
% returns the probability of the generalized Mallows model.
% w : vector of weights
% p : permutation (canonical order = 1..n)
% $Id: mallows.m,v 1.1 2009/05/02 13:44:42 daichi Exp $
K = length(w);
if length(p) ~= K
  error('dimensions of w and p must be equal.');
end
q = 1;
for i = 1:K
  j = p(i);
  if j < K
    v(j) = sum(p(1:i) > j);
  end
end
for j = 1:K-1
  q = q * exp(-w(j)*v(j)) ...
      * (1 - exp(-w(j))) / (1 - exp(-w(j)*(K-j+1)));
end

たとえば簡単な例として, canonical order [1 2 3 4] での各要素の重要性が (起承転結のような感じで) w = [2.0 1.0 4.0 3.0] だったとき, GMMに基づく確率は

p GMM(p|w) GMM(p|w/2) GMM(p|w/10) 説明
[1 2 3 4] 0.5651 0.2873 0.0724 canonicalな順番と同じ
[2 1 3 4] 0.0765 0.1057 0.0592 重要でない前半を入れ替え
[3 2 1 4] 0.0103 0.0236 0.0439 重要性の高い3番目を1番目と交換
[4 3 2 1] 0.000003 0.0007 0.0218 完全に逆

p	GMM(p\|w)	GMM(p\|w/2)	GMM(p\|w/10)	説明
[1 2 3 4]	0.5651	0.2873	0.0724	canonicalな順番と同じ
[2 1 3 4]	0.0765	0.1057	0.0592	重要でない前半を入れ替え
[3 2 1 4]	0.0103	0.0236	0.0439	重要性の高い3番目を1番目と交換
[4 3 2 1]	0.000003	0.0007	0.0218	完全に逆

のようになる。後ろの2つは, 重みを全体に1/2,1/10にした場合で, ディリクレ分布のように, その場合は確率の集中が穏やかになる。

いま, 各文書のトピック毎のパラグラフが, ディリクレ分布からそれぞれサンプルした多項分布から生起していると考えると, パラグラフの確率はPolya(DCM)分布になり, ここに, そのパラグラフが隠れトピックtを持つ, 全体のGMMによる確率が掛かることで, パラグラフの持つ隠れトピックをGibbsでサンプリングすることができる。
逆に各パラグラフの持つトピックがわかれば, GMMの事後分布は共役で同じ形になるので, 全体のGMMのパラメータwの事後分布が計算できてサンプルする, というのを繰り返す模様。

文書全体が共通のトピック構造に従うとか, パラグラフ全体が同じ隠れトピックを持つとか, かなり制約が強いので, それ自体すぐに一般の文書集合に使えるというものではないと思いますが, "GMMを隠れ変数に使う"という部分が目から鱗でした。
目に見える順番があるものにGMMを使うのはランキングの学習では普通で, SMTで単語をリオーダーする場合の確率にも使えるようですが, 一般にトピックに限らず隠れ変数の順番に一定の大域的構造があるということは普遍的に思えるので, 色々使いどころがあるのではないか, と思ったのでした。
ちなみに, この結果, 昔(数年前)に知って全く意味不明だった Lebanon の論文, "Conditional Models on the Ranking Poset" [link] が何をやっているか, だいたいわかるようになりました。万歳。

: これは僕もやってみましたが, パープレキシティは下がらなかったので発表しなかった。
: ここで, LDAの柔軟性が一つ崩れているのに注意.
: データがほぼ同じドメインだと思っているので, 文書が同じ構造に従うという仮定と同じように, この仮定はやや強すぎるきらいがある。

2009年05月02日(土) [n年日記]

#1 Latent Mallows Model

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.