Next: 7.5 Probabilistic Context-Free Grammars
Up: Chapter7Ambiguity Resoltion: Statistical Methods
Previous: Box 7.1 Getting Reliable
- 大規模な corpus が電子化されると,その情報と parser を結び付けて精
度のよい parsing を行うことができると期待される
- すべての courpus が正しい data ならば viterbi algorithm の結果を
そのまま parser に渡せばよい
- しかし,すべての courpus が正しい data は限らない, より最適な解を
求める必要性がある
- となると, viterbi algorithm のような最大 category の割り当てを
ただひとつだけ求めるような algorithm ではなく, context を考慮して
各単語に予想される category の確率をすべて求めて, parser に渡した
ほうがいいのではないか?
入力 context の条件下での任意の品詞,任意の単語位置の出現確率,
P(wt/Li|Input)
- context-independ な単語の出現確率 Figure 7.13
- context を考慮して ``The flies like flowers'' の中で, ``The flies''
の flies が名詞である確率を求める.
- 分子
The/? flies/N となる考えうるすべての確率の和
The/ART flies/N (
)
The/N flies/N (
)
The/P flies/N (
)
- 分母
The/? flies/? となる考えうるすべて確率の和
The/? flies/V という値も考慮 (
)
この context で flies が N になる確率は 0.9998
このような context を考慮した確率値を効率よく求めるには?
viterbi algorithm に似た手法 (forward probability, backward probability)
- forward probability
-
の単語列が出現し,かつt 番目の単語が
category i に属する確率
- 基本的に vitebi algorithm と同じ
に変更 (
)
可能な組合わせの確率の和
- SEQSUMの値で正規化
Figure 7.14 参照
- Figure 7.15 viterbi algorithm で
に変更し
た場合の score (
- Figure 7.16
から求めた確率値
(例)
- backward probability
-
の単語列が出現し,かつt 番目の単語が
category i に属する確率
- forward probability と同じ, 求める向きが逆, 文末から始まる
- lexical probabilites for word wt
- forward brobability, backword probability を組み合わせる
1999-08-03