mots quotidiens. | |
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp | by hns, version 2.10-pl1. |
|
|||||||||||||||||||||||||||||||||||||||||||||||
今の研究には直接関係ないが,
"A Kernel between Sets of Vectors"
が面白そうだったので読んだ。(正確に言うと, スライドと "Bhattacharrya and.."
を読んだ。)
2つの確率分布の間のカーネルとして,
K(p,p')=∫√p(x)√p'(x)dx は Bhattacharyya Kernel というらしい。
√をとらない場合は,
K(p,p') = ∫p(x)p'(x)dx = <p(x)>p'(x) = <p'(x)>p(x)になるので, その意味から Expected likelihood kernel と呼ばれているよう。
(普通の KL Divergence は対称でないのでカーネルにならない。)
Fisher kernel との比較が当然問題になるわけだけれど, Fisher kernel は
対数尤度関数の最尤推定値に対して, 接空間で内積を取っているので(この言い方で
合っているんでしたっけ?), 点推定になっているのでその意味ではあまりよくない,
という比較がされている。
Dirichlet 分布に対して Bhatta.. Kernel を計算してみると, (簡単だけど)
上のように closed form で書ける。
文書 d, d' が与えられたときに, それに対応する LDA の Dirichlet 分布のハイパーパラメータ
(正確に言うと, 多項分布のパラメータを q とすると,
を最大にするような α)は Variational Bayes で簡単に計算できるので
(perlで30行くらい), これを使えば, Latent Dirichlet Kernel ができると思う。
たぶん, ベクトル空間でナイーブにやっている
Latent Semantic Kernel
よりだいぶ性能が良かったりするんじゃないかと思う。
(Kondor の論文では LDA みたいにトピックを考慮せず, 単純な多項分布の Bhatt. Kernel を使っている。)
Vector Set Kernel の paper ではさらに kernel PCA を使っているけど,
LDAは本質的に多項分布に対するPCAと考えられるので(cf. Buntine03), やっている
ことは同じ。ただ, この場合はカーネル空間にマップしているわけではない。
あまりに straightforward なので (& テキスト分類には興味がないので),
僕はやらないけど。
タイトル一覧 |