Next: 15.3.5 Residual inverse document
Up: 15.3 Term Distribution Model
Previous: 15.3.3 The K mixture
- ad-hoc retrieval でよく用いられる IDF だが, 15.2.2 では
heuristically に説明した,
ここでは term distribution model に基づいて IDF を検証する
- ある document d が 答えとして relevantである odds O(d)
log をとって baye's rule 展開
単語集合 wi, に対し Xi という binary の配列を用意
(if wi が d に存在する then Xi = 1, if wi が d に存在しない then Xi = 0)
は定数項なので無視,取り除いた式を
g(d)とする
各単語 wi が relevant かどうかを示す配列を用意
は定数項なので無視, 取り除いた
式を g'(d) とおく
- IR では pi,qi を推定しなければならない
ad-hoc retrieval では, 最初に何の情報も与えられないので pi,qi を単純な手法で推定する
- pi は小さく,定数
- qi, ほとんどの単語が non-relevent
その単語の出現確率で近似
- relevance-feedback (補足)
- この確率推定の手法はrelevance-feedbackによく用いられる
- 1回目の検索で得られた list のうち, user に relavant なもの
適当に選ばせる or 機械的に上位 何個かを取る
relevant 集合 V とする,
Vi
単語 wi を含む V 中の document 数
- これを適当な回数繰り返す (実際はもうちょっと複雑)
1999-08-03