Next: BOX 7.2 Handling Unkown
Up: Chapter7Ambiguity Resoltion: Statistical Methods
Previous: 7.5 Probabilistic Context-Free Grammars
- 最良の parse を高速に行う手法
低い確率の可能性を排除しながらparse
- Chapter 3 の buttom-up Chart Parse の agenda を priority queue(優
先順序つき待ち行列)で管理, もっとも高い確率の要素を先頭に保ちなが
ら agenda を使用
- 問題点
arc を伸ばすときに, すでにそれが chart の中に入ってるかもしれない,
(最後の単語が高い確率を持ち,すでに chart に入ってることがありうる)
- 単純に active arc を chart に加えてることが問題,改善する必要あり,
Figure 7.22
- 1.
- C を p1,p2 の chart に加える
- 2.
-
の形をしている p0 から p1までの active arc に対して
以下にしたがって新しい active arc
を加える
ここで active arc
を
加えるには
- (a)
- C が最後の要素である時は新しい要素 X を agenda に
加える
- (b)
- そうでない場合, category C' に属する構成素が既に
chart の中にあれば
という active arc を p0 から p3 まで加える
- 効率の改善
3章の buttom-up chart parser で解析した場合 158 の構成素が chart
になる, 一方この algorithm を適用すると 65に減る (結果は同じ)
- 確率最大の解
この algorithm は確率最大の解を出力することが保証されている
(証明)
- 1.
- S1 をこの algorithm で得られた解とする (仮定)
- 2.
- S1 より確率の高い S2 があると仮定
- 3.
- S2 の構成素は,S1のそれより高い
- 4.
- S1 より先に chart に入る
- 5.
- 仮定と矛盾
- 問題点
確率の評価に確率の積を用いている,すると長い構成素の確率が急激に
減るため,結果として短い構成素ばかりが agenda に追加される,そこで
確率の評価を以下のように変更する
(P221の式と比べてみよ)
この手法は,極端に確率値が低い構成素があった場合にそれが全体の評価
値になってしまう欠点があるが,現実的には良い結果を出すことが報告されている.
また,構成素の平均を取る方法などもある
1999-08-03