mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp by hns, version 2.10-pl1.

先月 2024年05月 来月
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

2006年03月22日(水) [n年日記]

#1 Generative AND discriminative

大羽さんの ベイズWiki で, 生成モデルと識別モデルの関係についての Minka のテクニカルレポートが 紹介されていた ので, 僕も読んでみました。
"Discriminative models, not discriminative training", Tom Minka, Oct 2005.
ftp://ftp.research.microsoft.com/pub/tr/TR-2005-144.pdf
前半の内容は一部, CRF(Conditional..の方)の論文に書かれている内容とかぶって いる部分もありますが, データ全体のモデルの観点から, さらに一歩踏み込んだ 考察になっています。

A4 1枚なので読んだ方が簡単ですが, 内容を日本語で簡単に言うと, 識別モデルで最大化されるラベルの尤度 p(C,θ|X)=p(θ)p(C|X,θ)の裏には, 生成モデルの立場からは データ X を生成した「別の」パラメータ θ' があって, 本当は

p(C,X|θ,θ') = p(C|X,θ)p(X|θ')
になっているのだ, ということ。このようにデータ X を生成したパラメータθ'と, ラベルを生成したパラメータθが decouple されているので, それだけモデルの 柔軟性が高まる。(が, 推定の精度は下がる可能性がある。)
上の式はさらに, すべての結合確率を考えると
p(C,X,θ,θ') = p(θ,θ')p(C|X,θ)p(X|θ')
となって, ここで p(θ,θ')=p(θ)p(θ') と分離できれば, この確率最大化は普通のCRF等の 尤度最大化と同じになる。 *1 だが, 一般にはそうとは限らないので, p(θ,θ')の依存関係を入れることで, unlabeled data (Xのみ)が含まれる場合も consistent にモデル化できます, という話。
識別モデルの人も生成モデルの人も, 学習に関連している 人ならぜひお勧めです。(thanks for 大羽さん。)
*1: 逆に言うと, CRF等ではθとθ'のそういう独立性が仮定されている。

1 days displayed.
タイトル一覧
カテゴリ分類
 なかのひと
Powered by hns-2.10-pl1, HyperNikkiSystem Project