mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp by hns, version 2.10-pl1.

先月 2010年06月 来月
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30

2010年06月16日(水) [n年日記]

#1 IBISML第1回終了

IBISML の第1回研究会が無事に終了。 参加者は何と200人を超えたとのことで, 運営側も結構驚いていました。
初回のためとにかく発表件数が多く, 招待講演も一般講演も(一般講演は15分とか) 時間が足りない感じでしたが, 最初なのである程度は仕方ない部分もあったかも 知れません。 個人的には, 東京だけでなくかなり遠い所からも聞きに来られた方が色々 あったようで, 若い人も多く, そこの所が素晴らしいなというのが感想でした。
講演スライドが 第1回研究会のページ で続々公開されていますので (ibisml@twitter), ご興味のある方はぜひどうぞ。

牧野君のノンパラメトリックベイズの講演はすごい力作で, しかもわかりやすく, 講演をお願いして良かったなと思いました。 あの内容を50分で話すというのがそもそもかなり無茶なので, スライドを見直すと 結構わかるのではないかという気がします。

ベイズ学習の説明の所で, 一般にベイズ学習は事前分布を仮定して.. と言うと, 結果がその事前分布に依存してしまうじゃないか!という批判が 当然ありますが, 実際には, これまでの経験では事前分布はできる限り「無情報」にすることが多いので, そういう批判はかなりかわせるような気がします。例えば, DPはデータがPower Lawに 従うという仮説の事前分布ですが, 実際にはハイパーパラメータのαは学習できるので, Power law が現れないようにもなるはずですが, データがそれを支持している..という 理屈になっているかと思います。

終わった後, 帰りに愛する銀杏(安田講堂前)でお茶をして帰りました。 ケーキとコーヒーで310円とか, ありえない...。

#2 LDA+Pitman-Yor

佐藤君のトピックモデルの話(「階層Pitman-Yorトピックモデル」, KDD 2010)について 少し気付いたことがあったので, まとめ。15分しかないあの話で普通全部は わからないだろうと思うので..。

この話は最初, LDAのディリクレ分布をPitman-Yor過程(ポアソン=ディリクレ分布) にしただけかと思ったのですが, そうではないことに聞いていて気付きました。
佐藤君が Twitterで喋っている ように, この話はLDAにDM的なキャッシュ(Pitman-Yor adaptor)を入れたもの なのだと思います。 これまで, LDAには単語のバースト性 (同じ単語が複数回現れやすいというキャッシュモデル) が表現できないという問題があり, その点で Dirichlet Mixtures (DM)の方が パープレキシティの低いモデルとなっていました。が, この話でLDAにもキャッシュが 入ったので, DMはもしかすると不要になったかも知れません。 *1

佐藤君の論文は全部CRPで書かれているので, 何をやっているかわかりにくいのですが, 少し考えるとわかったので, 以下に整理。

一般に, LDAの生成モデルでは文書に含まれる単語が

という過程で生成されるとしますが, これは実は,
  1. θ ~ Dir(α) をサンプル
  2. 単語分布 p = Σk θk p(w|k) を混合分布として作成
  3. w_1 .. w_N ~ p を i.i.d. にサンプル
というのと同じです。上の 1,2 をまとめて, 以下 p ~ LDA(α) と書くことにします。
一方, DM等の単純なキャッシュモデル(Polya分布)では, で, 中間の p を積分消去するとΓ関数の形が出てきます。

上の佐藤君の話は, この Polya 分布でαに当たる単語の事前確率が一定ではなく, 文書のトピックを考慮して LDA(α) になっている, と理解できます。 それに加えて, ディリクレ分布にパラメータが1つ増えてポアソン=ディリクレ分布 (Pitman-Yor過程)になっている, ということ。つまり,

  1. p ~ LDA(α) をサンプル
  2. q ~ PY(η,d,p) をサンプル (ηは集中率, dはディスカウントを表すパラメータ)
  3. w_1 .. w_N ~ q, i.i.d.
で, 中間のqを積分消去。 言葉で言うと, p ~ LDA(α) は普通のLDAの単語分布ですが, 実際にはpを中心として 少しずれた, 特定の単語が何回も出やすい q があり, そこから最終的に単語が生成 されていると考えるモデルだ, ということ(この辺はDMと同じ)。

というわけで, この話でLDAの欠点も克服されたので, 一つ一つは特別なことをして いる訳ではないと思いますが, 実際上は結構役立つモデルになっているのではないか, という気がします。


*1: DMのあのもの凄いバウンドの計算が不要になると思うと, 若干寂しい気がしなくも ないですが...。

1 days displayed.
タイトル一覧
カテゴリ分類
 なかのひと
Powered by hns-2.10-pl1, HyperNikkiSystem Project