mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp by hns, version 2.10-pl1.

先月 2006年07月 来月
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31

2006年07月28日(金) [n年日記]

#1 Simplicial Curves in the Multinomial Manifold

Guy Lebanon が, ACL/COLINGとほぼ同時期にやっていた UAI 2006 で, "Sequential Document Representations and Simplicial Curves" [PDF] というのを出しているようです。 これは, 文書をbag-of-wordsのように1つの多項分布(単体上の一点)で表現 するのではなく, 単体上の連続的な曲線(軌跡)として表現する, というもの。
具体的には, 文書のある時点 t での単語の出現(1/0)をスムージング係数 c で ラプラススムージングした分布を, smoothing kernel で畳み込むことで単語単体上に カーブを形成する。 *1

smoothing kernel というのは要するにハミング窓みたいなもので, 文書の長さを1に正規化して考えると, ベータ分布を使うのが一番自然で, 論文では裾を切り落とした正規分布を使っている模様。 smoothing kernel の分散をσとすると, σが小さいとテキストの細かい動きを表現 する軌跡になり(その代わり長距離の依存性が少なくなる), σが大きいと大域的な 動きが重要視されることになる。また, スムージング係数cを小さくすると単体の角 をビシっと訪問する感じになり, c→∞にすると, 情報が無いのと一緒で単体の中心に 縮退する。
面白いのは, σ→∞とすると, この軌跡は時系列を考慮しない bag-of-words に収束す るという点。すなわち, σを動かすことで, bag-of-words とミクロな時系列情報の間を 補間することができる。

ここでは単語単体をそのまま軌跡の空間として使っているが, 単語を直接使うのは noisy に過ぎるので, 当然考えられるのは, Topic subsimplex 上のダイナミクス を考える問題だと思う。すなわち, 訓練文書の時系列情報を落として bag-of-words に 縮退させることなく, 隠れた subsimplex の位置と, その上の軌跡を同時に決定する 問題になると思う。

こうやって文書を曲線として表現できると, 文書の距離の測り方も変わってくる。 文書x, 文書y に属するカーブ上の点 θ_t∈x, φ_t∈y に対して, その距離を d(θ_t,φ_t) と置くと, 文書 x と y の距離は ∫10d(θ_t,φ_t)dtとして求まる。(θ,φ)を球面上にマップして(√θ,√φ)とすると, そのなす角の cosineは √(θ・φ)なので, 測地線に沿った大円上の距離は,
d(θ,φ) = arccos(√(θ・φ))
で求まる。まだ完全にわかっているわけではないですが。(この方法は Information Diffusion kernel の測り方のベースとも基本的に同じ。)

こういう本当に面白い論文を読むと, 自然言語処理をやっていてよかったなあ, と 思います。
普段はほぼ完全にわかった論文しか紹介しないのですが, これは本当に面白かった ので, 紹介してしまいました。

Other geometrical features may also be used in modeling text documents.
The instantaneous direction of the curve γ(y) at t_0 is given by its
tangent vector d/dtγ_{t_0}(y). Since the curve is differentiable we can
obtain a tangent vector field d/dtγ(y) along the curve that describes
sequential topic trends and their change.
The second derivative d^2/dt^2 γ(y) vector field, together with the
Riemannian metric, may be used to define the curvature at different points
along the lowbow curve.
Intuitively, curvature measures the amount of wigglyness or deviation
from a straight line (or geodesic). Integrating the norm of the curvature
tensor over t ∈ [0,1] provides a measure of the sequential topic complexity
or variability along the document. ..
に感動しまくり。カッコイーカッコイーカッコイーーー。
*1: ここでいう kernel とは, SVMとかのカーネルとは関係ありません。 カーネル密度推定のkernelと同じだと思う。

1 days displayed.
タイトル一覧
カテゴリ分類
 なかのひと
Powered by hns-2.10-pl1, HyperNikkiSystem Project