mots quotidiens. | |
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp | by hns, version 2.10-pl1. |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||
smoothing kernel というのは要するにハミング窓みたいなもので,
文書の長さを1に正規化して考えると, ベータ分布を使うのが一番自然で,
論文では裾を切り落とした正規分布を使っている模様。
smoothing kernel の分散をσとすると, σが小さいとテキストの細かい動きを表現
する軌跡になり(その代わり長距離の依存性が少なくなる), σが大きいと大域的な
動きが重要視されることになる。また, スムージング係数cを小さくすると単体の角
をビシっと訪問する感じになり, c→∞にすると, 情報が無いのと一緒で単体の中心に
縮退する。
面白いのは, σ→∞とすると, この軌跡は時系列を考慮しない bag-of-words に収束す
るという点。すなわち, σを動かすことで, bag-of-words とミクロな時系列情報の間を
補間することができる。
ここでは単語単体をそのまま軌跡の空間として使っているが, 単語を直接使うのは noisy に過ぎるので, 当然考えられるのは, Topic subsimplex 上のダイナミクス を考える問題だと思う。すなわち, 訓練文書の時系列情報を落として bag-of-words に 縮退させることなく, 隠れた subsimplex の位置と, その上の軌跡を同時に決定する 問題になると思う。
こうやって文書を曲線として表現できると, 文書の距離の測り方も変わってくる。
文書x, 文書y に属するカーブ上の点 θ_t∈x, φ_t∈y に対して, その距離を
d(θ_t,φ_t) と置くと, 文書 x と y の距離は
∫10d(θ_t,φ_t)dtとして求まる。(θ,φ)を球面上にマップして(√θ,√φ)とすると, そのなす角の
cosineは
√(θ・φ)なので, 測地線に沿った大円上の距離は,
d(θ,φ) = arccos(√(θ・φ))
で求まる。まだ完全にわかっているわけではないですが。(この方法は
Information Diffusion kernel の測り方のベースとも基本的に同じ。)
こういう本当に面白い論文を読むと, 自然言語処理をやっていてよかったなあ, と
思います。
普段はほぼ完全にわかった論文しか紹介しないのですが, これは本当に面白かった
ので, 紹介してしまいました。
Other geometrical features may also be used in modeling text documents. The instantaneous direction of the curve γ(y) at t_0 is given by its tangent vector d/dtγ_{t_0}(y). Since the curve is differentiable we can obtain a tangent vector field d/dtγ(y) along the curve that describes sequential topic trends and their change. The second derivative d^2/dt^2 γ(y) vector field, together with the Riemannian metric, may be used to define the curvature at different points along the lowbow curve. Intuitively, curvature measures the amount of wigglyness or deviation from a straight line (or geodesic). Integrating the norm of the curvature tensor over t ∈ [0,1] provides a measure of the sequential topic complexity or variability along the document. ..に感動しまくり。カッコイーカッコイーカッコイーーー。
タイトル一覧 |