Next: 15.3.4 Inverse document frequency
Up: 15.3 Term Distribution Model
Previous: 15.3.2 The two-Poisson model
- negative binomial 程度によく fit する simple な distribution model
- dfi は それぞれの document で wiが最低 1回ずつ出現したと
仮定した場合のtotalの出現回数,
実際のtotalの出現回数は cfiだから cfi-dfi は最低 1回ず
つとは別に, 余って出現した回数となる
-
各 document には最低 1個 とは
別に, あふれて
個 wi が出現する
-
全頻度に対すして, 余って出現した頻度の割合
- 例 Table 15.7
- K mixture は non-content word の分布を近似するのに特に優れている
- content word では
が保た
れない,減少傾向 (soviet の例)
- その document の core topic に関連する単語は集中して
分布しやすい, 出現頻度が多い単語は central concept を
表現してる可能性が高い
1999-08-03