Next: 7.4 Obtaining Lexical Probabilities
Up: Chapter7Ambiguity Resoltion: Statistical Methods
Previous: ○ Viterbi algorithm
- n-gram 統計をとる場合, いったいどれくらいの規模の corpus があれば
いいのか? (categry 数 40)
- unigram
401 = 40
- biigram
402 = 1600
- trigram
403 = 64,000
- four-gram
404 = 2,560,000
100万単語の courps があったとしても four-gram はそのほとんどが empty
trigram の場合はきれいに分布している category は 15% ほど
- smoothing
data sparseness の対処法
n-gram 統計を n-gram だけを用いるのではなく, unigram, bigram
trigram.. の組み合わせで表現する
もし, trigram が data sparseness のために観察できなかった場合, bigram,
unigram で確率値が補完される,
best performance を得るために,
の値を残りの2つより大きくする
(trigram の確率値を残りの2つより優先)
1999-08-03