Next: ○ Viterbi algorithm
Up: Chapter7Ambiguity Resoltion: Statistical Methods
Previous: 7.2 Estimating Probabilities
単語の属するcategories(品詞)を決定する問題 (tagset の例 figure 7.3)
- 単語列
に割り当てる categories
のうち,その確率
 |
|
|
(1) |
を最大にする割り当てを求めることが問題
- Bayes' Rule より (1)は
 |
|
|
(2) |
- (2) の分母
)
は
の
割り当てには依存しないので
 |
|
|
(3) |
を最大にすればよい
実際は, Data Sparseness,計算量の問題からこの確率を直接
求めることは困難
- n-gram model
- (3) の第1項
Ci はその n-1個前の品詞のみに依存するという仮定
(n=2 bigram, n=3 trigram)
bigram の場合,
 |
|
|
(4) |
となる, 例えば ART,N,V,N というcategory列を割り当てる場合は
の n-gram も可能だが, data sparseness,計算量の問題で現実的ではない
- (3) の第2項
各 category に属する単語は前後の単語と独立であるという仮定
 |
|
|
(5) |
- (4)(5)の近似より,全体として
 |
|
|
(6) |
を最大化する
を求めることに帰着される
- 実際の確率値の求め方
単に頻度を求めればよい
Figure 7.4 を参照,
PROB(wi|Ci) は, Figure 7.5 のような
matrix を作れば求まる, Figure 7.6 は matrix から求めた確率値
- 最大値の求め方
- brute force method
すべての組合わせをしらみつぶしに調べる
通り
- Markov model (Markov assumption, Markov chains)
ある状態が,以前の状態に依存した確率で遷移する,
Markov model
で解決できる, Figure 7.7
- HMM (Hidden Markov Model)
Figure 7.7 は品詞の状態遷移のみ
実際は,各品詞で出現する単語,つまり
PROB(wi|Ci) を考慮する必要がある,
各状態で単語の出現確率が Markov Chains の中に 隠れているという意
味で Hidden Markov Model
(例)
``Flies like a flower'' が ``N V ART N'' と解析さ
れた場合, HMM の内部状態(隠れた部分の状態)の確率は
となる, HMM の外部状態(表に出ている状態遷移の確率)は, MM と同じだから
total で ``N V ART N'' という category が付与される確率
は
と
なるんだけど, この値はまさしく
(6)式を求めたことと等しい, つまり (7) と HMM は等価
- HMM
MM
Figure 7.8 のように HMM の隠れた部分を表に出して(隠れた
部分をひとつの状態にして) MM にすことができる,
これをしらみつぶしに調べると, 44 = 256のパス,
単語数,category 数が増えると計算量が爆発してくる
(N category, T words
通り),
結局 これは以前述べた brute force method と同じこと
- Viterbi algorithm
単語の category は単純な markov model,
次の単語の出現は前の1つの単語のみによって決定する,
Ci を計算するのには Ci-1 の情報さえあればよく,
Ci-2 から Ci-1 の遷移のうち最良のパス以外は
考える必要がない,
計算量を
まで減らすことが可能
(k = constant value)
Next: ○ Viterbi algorithm
Up: Chapter7Ambiguity Resoltion: Statistical Methods
Previous: 7.2 Estimating Probabilities
1999-08-03