mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp by hns, version 2.10-pl1.

先月 2024年05月 来月
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

2010年01月18日(月) [n年日記]

#1 ランダム生成

あまり前の仕事にこだわるつもりはないのですが, 来週NTT R&Dの偉い人へのプレゼン& NTT言語系内部コロキウム@横須賀でデモをするので, 言語モデルからランダム ウォーク生成してみました。 (実は論文にある通り, 学習の際に単語モデルからモンテカルロ法の中で生成している のですが, あまり真面目に結果を見ていなかった。)

英語の単語モデル(文字∞-gram)から生成した例。(Penn Treebank+オバマ就任演説)

sj:~/work/segment/src% ./spygen -c -n 30 ../model/obama+ptb
varied grain classistor ruminus read headof myhome eastgo smoke
her garry nexty . hunkyu stify feckless s dinnie ener stis pilepar
dottles crash gamble summon abated stoppeduzz muched the dis
おお, いかにもそれっぽいですが, ありそうで, 実際にはない単語が。 個人的には, 単純なn-gramなので, こんなに「英語らしい」単語が生成されるとは 少し意外でした。
次は「しょこたんブログ」からの生成。
sj:~/work/segment/src% ./spygen -c -n 30 ../model/shoko
リンパ きたいから 空間 もう一度 って ぉぉおおぉー 思い出せない いったし
wwwwwww 、 暖冬 とどんそく みえます ぐってた 憧れ だらーり
貼った さん 福本先生様 トリップルパイ 震える 『 覚えて ハート ホテル
(′ωω`) で 天才 メンB 飼う
言うまでもないですが, いわゆる辞書があるわけではないので, 実際に存在する単語 と一致するものがあるのは単なる偶然 (あるいは, モデルが正しく学習されていることを示すもの)です。新しい顔文字が。w

下は源氏物語からの生成(ランダム源氏物語)。

sj:~/work/segment/src% ./spygen -n 5 ../model/genji.n2
いとよう思ひしづめて、山深きこと、と思すも、なほ、いともかしこには、同じことに
て、限りある御身には、いとどしく侮らはしく思ひければ、あさましうなりたまひて、
その返り事は見せたてまつりたまへば、ことになかりし儀式、よそほしうひきつづきて、
その世の道理なれど、院の御子の方の人、 「来し方のことなど、我は 、おのづから
御覧じ知らるることもこそ、かやうの御前の花の木どもも、げにいとおもしろし。
ことごとしくもてなさせたまふ。
大将の宇治に、 「心憂く。
風のつてに見しやどの紅葉をこきまぜて、生ひ先篭れる窓の内なるほどになん。
頼もしげなきやうなりや。
こういうことができるのは生成モデルだからこそなので, 研究的にはおまけとは言え, 面白いなあ, と思います。


2003年01月18日() [n年日記]

#1 Slides

NL研のスライドが大体できた(←遅いヨ!).
ただ, 言いたいことがないわけじゃないのだけれども, 全然理論的に進歩がないし, ちょっと今回は.. ということで, 聞かなかったことにしてほしい感じ. (本当はキャンセルしたい位だったが, 申し込んだ後だったのでできなかった.)

この1月くらいこの発表があるので憂鬱だったが, これを乗り切れば自分の勉強の 続きができる(という自由が奪われていないのは幸せなことである) ので, 何とかこなす予定です.

#2 -

これだけでは何なので, 先月末に作った, ローカルの *.ps(.gz|Z) を ブラウザの Acrobat Reader で変換して読むための簡単な script.
使い方: http://.../cgi-bin/pdfview.cgi?/home/who/fooa.ps.gz
ps2pdfに渡して何か悪さができるとは思えないけど, 一応個人用に しておいた方がいいかも.
#!/usr/local/bin/perl
#
#  PDFview.cgi
#  -- View PostScript papers in PDF on the fly.
#  Sat Dec 28 20:01:53 2002 daiti-m@is.aist-nara.ac.jp
#
use CGI;
my $zcat   = '/bin/zcat';
my $bzcat  = '/usr/bin/bzcat';
my $ps2pdf = '/usr/bin/ps2pdf';
my $cgi = new CGI;
my $file = $cgi->param('keywords');
print "Content-Type: application/pdf\n\n";

if ($file =~ /\.(?:Z|gz)$/) {
    system sprintf("$zcat %s | $ps2pdf - -", $file);
} elsif ($file =~ /\.bz2$/) {
    system sprintf("$bzcat %s | $ps2pdf - -", $file);
} else {
    system sprintf("$ps2pdf %s -", $file);
}

2 days displayed.
タイトル一覧
カテゴリ分類
 なかのひと
Powered by hns-2.10-pl1, HyperNikkiSystem Project