mots quotidiens. | |
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp | by hns, version 2.10-pl1. |
|
|||||||||||||||||||||||||||||||||||||||||||||||||
表明 4.6383 青空 4.5353 見渡す 4.5167 寒かっ 3.9486 放っ 3.8496 凄かっ 3.7123 フレーズ 3.6517 重み 3.6218 単なる 3.5859 満開 3.5602 くさく 3.5188 治し 3.5034 届く 3.3464 動員 3.3411 振り掛け 3.3402 たちまち 3.3228 広げる 3.3200 触る 3.2801 断わり 3.2613 立ち上がっ 3.2359 きらきら 3.2313 整える 3.1912
ちなみにこちらは男性度の高い単語。む, むさい。。
ビションフリーゼ 0.0695 輸出 0.0698 真理 0.0765 福沢 0.0805 ミート 0.0934 松下 0.1030 仲直り 0.1046 加藤 0.1047 整形 0.1049 僕 0.1053 霊感 0.1120 茅が崎 0.1120 果実 0.1128 包帯 0.1138 ニュージーランド 0.1147 オートレース 0.1157 干潟 0.1225 保全 0.1234 漫画 0.1248 死刑 0.1275 独自 0.1299 ハイテク 0.1332
案葵綾杏案綾綾杏 以粟或伊位杏闇庵 葵闇杏闇旭旭案庵 愛葵綾杏闇偉案 育愛愛愛惟愛育郁 育磯逢阿穐穐圧暗庵 逢穐惟惟娃阿穐逢一阿旭 壱圧旭旭阿穐逢圧愛育郁 育磯逢阿穐穐圧暗庵 壱逢逢梓溢逸溢鯵梓圧 穐逢稲茨芋梓茨鰯允印 壱逢逢穐芦逸咽哀挨斡 鮎杏伊位以伊位杏庵 鮎以伊伊杏鮎綾闇偉庵 愛蔭綾院鮎萎綾安鮎綾闇偉庵 旭闇案偉鞍綾葵偉案庵 鮎杏鮎鮎安安杏鮎鞍 綾以伊安綾杏愛杏 鮎杏萎粟鮎右案 旭闇闇旭旭案育案 愛暗暗引綾畏異胤庵 葵椅椅引綾異胤暗庵 鮎椅胤異暗偉宇庵 旭異胤暗畏椅異穐逢穐握綾 鮎葵愛胤暗椅旭旭葵綾飴委威委鮎綾握穐逢葵旭烏 愛穐穐衣穐逢移逢壱育羽 按移移迂逢移逢移雨宇 愛穐穐衣穐逢移逢壱育羽 按移移迂逢移逢移雨宇 育壱雨育羽按逢穐愛移 移逢逢穐穐衣穐穐逢逢圧暗 逸卯鵜吋吋窺丑威碓 丑窺逸飴飴卯唖唖逸碓 逸臼丑威吋臼渦飴碓 逸窺逸卯逸嘘絢穐碓 梓葦芦握娃卯唖卯 逸卯丑威威窺丑吋碓 愛暗葵胤愛一握綾畏 鮎椅旭葵暗為 按胤葵椅葵迂穐葵胤 愛按宇暗易暗 愛按宇暗易烏 愛暗葵胤愛一握綾鮎庵 鮎椅旭葵暗為 按胤葵椅葵迂穐葵旭庵 愛按宇胤易暗 愛按宇胤易暗 案闇葵鞍綾杏杏 杏伊粟萎綾杏鞍 鞍杏鮎杏粟萎杏 杏鞍葵杏葵偉案 杏鞍綾闇愛旭葵鞍 鞍鞍綾鞍鮎萎杏 杏鞍葵杏葵偉案 案案愛夷育夷案 闇闇鮎闇愛瓜案 案案愛夷育夷案 闇闇鮎闇愛瓜案 闇闇旭闇愛旭愛夷依 闇闇旭闇綾杏葵愛夷 闇闇鮎闇愛瓜案下は, "Erk"データ全部を変換したもの(1781行。ほとんど自分用メモ) erk.txt erk.dic
これは, 「8分音符,F#」のような情報をシンボルとしてUnicodeで一文字にエンコーディングする には, 漢字にするのが早いと思ったから。上のスクリプトを実行すると, 漢字列と "案 -> 1:8"のような変換表を吐きます(1=C)。
これを見ていると, 万葉仮名っぽいとか,
繰り返しが多いので君死ねの"( ´_ゝ`)ヌヌネネヌヌネノ.."
(これ)
に似ているとかありますが, ある意味でやはり言語なのがよくわかるような気がします。
ただ, 普通の言語とは違うので, 上でスペースで区切られたフレーズの認識はそのままでは行かないようですが(フレーズの遷移確率をもっと丁寧にする必要がある),
こうやって言葉にすると, 言語として研究対象として見やすいように思います。
僕だけ遅れまくっていた, Hastie and Tibshirani の "The Elements of Statistical Learning" の翻訳の担当分(9章)がようやくほぼ終了。
当たり前のことですが, 自然な翻訳をするのは結構大変だなぁ, とあらためて 実感しています。例えば, 次の文
It is quite common to have observations with missing values for one or more input features.という文を, 次のように直訳しても
1またはそれ以上の入力の特徴が失われた値を持つ観測値を持つことはかなり一般的 である。「間違い」とは言えないわけで, 僕は下のように訳しましたが,
観測値に欠損があり, 入力の特徴ベクトルの値が1つ以上欠けていることは 非常に多い。これは機械的に翻訳するのはかなり難しい..というか, 僕の人間言語モデルを かなりフルに使っている気がします。
タイトル一覧 |