hns - 日記自動生成システム - Version 2.10-pl1

先月 2006年06月 来月
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30
HNS logo

2006年06月21日(水)

#1 SMMC

"Simplicial Mixtures of Markov Chains: Distributed Modelling of Dynamic User Profiles" [PDF] は, 最初にテクニカルレポートを読んだのは2003年くらいだと思うのだけれども, やたら一般的な書き方をしているので, 何をやっているのかさっぱりわからなかった。
スライド を前に見返すとだいぶわかってきたので, この場を借りて整理。

SMMCは一言で言うとLDAのバイグラム拡張と言っていいもので, 系列 s1s2..snが, 以下のプロセスに従って生成されたとする。

  1. Sample λ ~ Dir(α).
  2. For i = 1 .. n - 1,
    1. Sample k ~ Discrete(λ).
    2. Sample s(i+1) ~ p(・|s(i),k).
つまり, 系列 s1s2..snは, i = 1 .. n ごとに異なるバイグラムから生成されているとする。
論文はバイグラムでなくて, 一般の n-gram でも可能なように書いてあるので 何をやっているのかよくわからなかったが, 実際的には(特に自然言語の場合は) 記号の数が多いため, トライグラム以上を使うのは無理だと思う。 p(・|k) でなくて p(・|s(i),k) になっているというだけで, よく考えてみると バイグラムである以外はLDAと同じモデル。
意味としては, 単語にはカテゴリがあって, 例えばあるカテゴリに属する動詞は こういう語と続きやすい, という汎化をモデリングしていることになっている。 & どのようなカテゴリが出やすいかは, ある文書について最初にサンプルして 決まる。
(ただし, 汎化しすぎになる可能性があって, syntacticな制約が簡単に破られる 可能性があることと, バイグラム以上を使うのが難しいという問題はあると思う。)
そういう意味では, Hanna Wallach のICML'06の話はこの話とそっくりかも。


以上、1 日分です。
タイトル一覧
カテゴリ分類
Powered by hns-2.10-pl1, HyperNikkiSystem Project