Next: Summary
Up: Chapter7Ambiguity Resoltion: Statistical Methods
Previous: BOX 7.2 Handling Unkown
- best-first algorithm は 効率よい parse の手法に役にたつが,精度の
向上につながる algorithm では無い
- context-dependent な lexical information に関する確率を使っって
精度向上を試みる
- Category C が 単語 w で始まる rule Ri で展開された確率
を求める
Figure 7.23
- house vs. peaches
house は NP
N N になりやすい (0.82)
peachesは NP
N になりやすい (0.65)
- like vs. put
like は VP
NP になりやすい (0.9)
put は VP
V NP PP になりやすい (0.93) (put 〜 in)
- context-dependent な確率を使うと精度が向上する 49%
66%
精度の向上の他に効率的な解析も行うことができる, chart 数 65
36
(Figure 7.24)
- なぜ精度が向上するのか?
- The man put the bird in the house.
- The man likes bird in the house.
を比べてみる Figure 7.25, 7.26
- context-free な確率値を用いると, 各単語を見ないので,2つとも
同じ parse tree が得られる
まちがい
- 実際は,like, put は適用されやすい rule が違う
context を考慮したほうがいいにきまっている
- さらに賢くするためには?
- w のみを見ていた (unigram) 確率の計算を bigram や
trigram に拡張する (ただし 多量の traing data が必要)
- VP
V NP PP というような rule の場合
V だけでなく PP の種類も考慮する
(問題点: VP
V NP との確率の比較が困難になる)
- closed class words
prepositions, articles, quantifiers, conjunctions
これらは enumerate できるので簡単に推定可能
- open class words
ほんとはこれらも個別に扱いたいのだけど, data sparseness の
問題で難しい
- 非常によく出てくる単語のみを個別に扱う
- 手作業,何らかの semantic properties, corpus から
自動学習... などを使って単語の clustering を行っておき,
類似する単語を同一 class の単語として扱う (smoothing?)
(動作を示す動詞をひとつの class にまとめてこれらは同じ振る
舞いをすると仮定 ..etc)
1999-08-03