きまぐれ日記: 「読めてしまう」コピペがなぜ読めてしまうのか

« ファイルIOではなくバイト列IO | メイン | ファンに支えられるプロダクトとユーザにdisられるプロダクト »

2009年05月09日

「読めてしまう」コピペがなぜ読めてしまうのか

http://www.asks.jp/users/hiro/59059.html
http://www.itmedia.co.jp/news/articles/0905/08/news021.html
最初読んだとき、違和感なく読めてしまったのですが、よくよく見てみると、そんなトリックがあったのですね。

さて、この「読めてしまう」がなぜよめてしまうのでしょうか？

人間の言語モデルの単語パープレキシティは、約100ぐらいであると言われています。どういうことかというと、人間が文章を読んでいるときに、次の単語を過去の文章から推測するのは 1/100　程度の確率で正解するということです。

件のコピペですが、最初の文字は変わらないので、その正解率は平仮名の数(52)倍になります。すなわち、52/100 =~ 0.5　実際には、最後の文字も変わらないし、単語の長さが変わらないというもの、大きなヒントになって、平均正解率は1.0に近くなるのではないかと思います。

ちなみに、統計的言語モデルのパープレキシティは50～150ぐらいで、条件やデータによって変わります。あのコピペのような文章を作っても、非常に高い精度で元の文章が機械的に復元できると思います。

投稿者 taku : 2009年05月09日 18:28

トラックバック

このエントリーのトラックバックURL:
http://chasen.org/~taku/blog/mt-tb.cgi/246