Next:
15.3 Term Distribution Model
Up:
15.2 The Vector Space
Previous:
15.2.1 Vector similarity
15.2.2 Term weighting
vector space の各要素をどのような値にすればいいのか?
3つの frequency (Table 15.3)
term frequency
t
i
,
j
(
d
j
中の
w
i
の数)
document frequency
df
i
(
w
i
が含まれる document数)
collection frequency
cf
i
(
w
i
の総数)
緩衝関数
人間の感覚は log に近い, 重要度は 緩衝関数
f
(
tf
) で表現されるこ とが多い
document frequency
意味的に重要な語(keyword)は1つの document 集中しやすい
df
i
小
意味的に重要でない語(function word など)は均一に分布
df
i
大
Table 15.4
insurance のほうが try より重要語
tf
idf
inversed document frequency (idf)
, (N は document 数)
w
i
がすべての 1 つの document に含まれる
w
i
がすべての document に含まれる
idf
=0
term frequency と document frequency を組み合わせる
いろいろな tf
idf
Table 15.5
1999-08-03