Next: 7.6 Best-First Parsing
Up: Chapter7Ambiguity Resoltion: Statistical Methods
Previous: はじめに
- Category Cに対し,どの rule がどれだけ適用されたかの確率
のとき rule Rj が使用される確率
PROB(Rj|C) は
Figure 7.17
- Viterbi algorithm を拡張すれば確率は簡単に求まる
- 問題点
- 各 rule の生成確率を独立としている
- Rj の構成素が, その上で何の要素になるのか考慮されない
- NP
ART N で, NP が subject になるか,
verb of object になるか object of a prepositionになるか?
- subject 中の NP は, NP より pronouns になりやすい
- inside probability
- category C が単語列
に展開される確率
- Figure 7.18,7.19
を求めてみよう (buttom up)
PROB(flower|N),PROB(a|ART),PROB(a|N)
Figure 7.6
しかし sentence がある特定の単語列に展開される確率を求めても意味
がない, むしろ単語列が与えられたときにどのような rule が適用され
るかが重要
- ある特定の parse treeが適用される確率
- 単語列
に対して, ある parse tree が得られ
る確率を求める
という rule i が適用される確率は
となる
-
PROB(E) が lexical category (品詞) になった場合は, 7-4 で述べた
Lexical Probabilites を使用する
context-independent な確率 (Figure 7.13)では..
であり V をみたす場合考えられる,しかし context-dependent
(Figure 7.16) つまり,
を求めると
flower/V になる可能性は極めて低い (a
N, flower
V)
- 具体例
``a flower'' に対して, context-dependent な確率を使って
Chart Parsing を行った例
Figure 7.20 - しかしこれでも50% 程度の精度しか得られない
各 rule を独立なものとして仮定しているため
(具体例) Figure 7.21
VP が (V,NP,PP) に展開される確率は圧倒的に
Figure 7.21 の左の木の可能性が高い,
courps 中に 23 例ある NP
NP PP は
すべて誤って解析されてしまう
84の文で 確率を使わなかった場合 1/3 が正解
確率を使った場合 1/2 (ただし closed test),
open test にしたらもっと悪くなる
context に依存した確率を使って parsing を行う必要あり
Next: 7.6 Best-First Parsing
Up: Chapter7Ambiguity Resoltion: Statistical Methods
Previous: はじめに
1999-08-03