Next: 15.3.2 The two-Poisson model
Up: 15.3 Term Distribution Model
Previous: 15.3 Term Distribution Model
- 十分に長い時間内(=連続した時間内)にある事象がk回発生する確率分布
(欠陥が発生する, 微生物が発生する.. etc)
は 単位時間あたりの発生回数
possion distribution の分布例
Figure 15.4
3つの前提
- ある細分された時間内に事象がおきる確率は時間の長さに比例
- 時間を非常に細かく細分すれば、細分された時間内にその事象
が2回以上起きる確率は無視できる
- 個々の細分された時間内に起きる事象は、他の時間に起きる事象
と独立
- binomial distribution
poisson distribution
(証明)
の時
よって
- 期待値,分散
- Term distribution model へ適用
は term wi の1 document あたりの平均出現回数, (
)
- Term distribution model における possion 分布の前提条件の解釈
- 1.
- text をある一定量で細分した各部分で,ある単語が出現する確率は
その細分された text 長に比例する
- 2.
- text 中の非常に局所的な個所では,ある単語が 2回以上出現
する確率は無視してよい
- 3.
- text をある一定量で細分した個々の部分で, ある単語
が出現するかしないかは他の細分された部分とは独立である
- 前提をもとに証明
- 1.
- ある単語 wi が, 1 text (document) に出現する平均回数は
回
- 2.
- この text を n 等分する,
- 3.
- n等分された 1つのグループに wi が1回出現する確率は
(前提1,前提2)
- 4.
- この text(document) に wi が k 回出現する確率は,
binominal distribution (前提3)
- 5.
-
の極限をとると poisson distribution
- 例
- Table 15.6, 6つの単語を possion distribution で推定
-
は dfi の推定量
- follows, transformed 等の no-content word(非内容語,非重要語,keyword
になりにくい語) は, ほぼ推定どうり
- soviet, students 等の content word (内容語,重要語,keyword になりやすい語)は
推定値と開きがある
- 人名は新聞で最初に1回だけ使われやすい
james
- freshly は no-content word にも関わらず, ある特定の
document に出現
- possion distribution はすべての単語を平等に扱ってしまうの
が問題, content-word は poisson distribution に従いにくい
- 重要語は, ある特定の document に集中しやすい
burstiness , term clustering
- Document size は一定量ではないことが問題
1999-08-03