mots quotidiens.

今の研究には直接関係ないが, "A Kernel between Sets of Vectors" が面白そうだったので読んだ。(正確に言うと, スライドと "Bhattacharrya and.." を読んだ。) 2つの確率分布の間のカーネルとして, K(p,p')=∫√p(x)√p'(x)dx は Bhattacharyya Kernel というらしい。
√をとらない場合は, K(p,p') = ∫p(x)p'(x)dx = <p(x)>_p'(x) = <p'(x)>_p(x)になるので, その意味から Expected likelihood kernel と呼ばれているよう。 (普通の KL Divergence は対称でないのでカーネルにならない。) Fisher kernel との比較が当然問題になるわけだけれど, Fisher kernel は対数尤度関数の最尤推定値に対して, 接空間で内積を取っているので(この言い方で合っているんでしたっけ?), 点推定になっているのでその意味ではあまりよくない, という比較がされている。

Dirichlet 分布に対して Bhatta.. Kernel を計算してみると, (簡単だけど) 上のように closed form で書ける。
文書 d, d' が与えられたときに, それに対応する LDA の Dirichlet 分布のハイパーパラメータ (正確に言うと, 多項分布のパラメータを q とすると, ${}p(D|\alpha)=\Bigint{}p(D|q)p(q|\alpha)dq$ を最大にするような α)は Variational Bayes で簡単に計算できるので (perlで30行くらい), これを使えば, Latent Dirichlet Kernel ができると思う。

たぶん, ベクトル空間でナイーブにやっている Latent Semantic Kernel よりだいぶ性能が良かったりするんじゃないかと思う。 (Kondor の論文では LDA みたいにトピックを考慮せず, 単純な多項分布の Bhatt. Kernel を使っている。) Vector Set Kernel の paper ではさらに kernel PCA を使っているけど, LDAは本質的に多項分布に対するPCAと考えられるので(cf. Buntine03), やっていることは同じ。ただ, この場合はカーネル空間にマップしているわけではない。
あまりに straightforward なので (& テキスト分類には興味がないので), 僕はやらないけど。

-

スライドを見ていたら, "Mercer Kernel? +ve? +ve definite?" というのがあって, +って何? 印刷でフォントが置き換えられたのかな, と思っていたら, 突然 "positive" の意味であることに気付いた。(笑)

2004年06月07日(月) [n年日記]

#1 EMNLP 2004

2004年06月18日(金) [n年日記]

#1 うー

2004年06月24日(木) [n年日記]

#1 LDA Kernel

-

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.