mots quotidiens.

統計数理研究所 (ISM)に行ってきました。セミナーをするなら旅費を出しますよ, との有難いお話でしたが, (少なくとも現在のところは)そんな怖れ多いことができるわけがないので(^^;), 東京の実家に用事があって帰る時のついでに。
広尾のあたりに行くのは実は初めてだったりして。
統数研は, 何というか病院みたいな感じの建物でした。別に悪い意味ではなく, 建物が古くて静かなのと, 床がリノリウムかつ公的な建物なのがそういう感じがするのかも。

伊庭さんとずっとお話しして, その後福水さんに紹介していただいて少しお話ししたり。
3月に松本研研究会で話した話 (今はもう少し違うやり方でやっています)を最後に説明したら, 隠れ変数が5層 *1 になっているので「やりすぎ(笑)」と言われました。(笑)
帰ったのは結局午後7時半くらいだったので, 6時間くらい喋っていたような気がする。

: z→λ->α->γ->(a,b) の5層。ただし, λは積分除去されているので実際には4層。

[n年日記]

hashtable in MATLAB

MATLABで扱えるのは基本的に数値だけなので, 単語を id (整数)に変換する関数が必要になるが(これは他の言語でも同じ), MATLABにはどうもハッシュテーブルがないらしい。テキストを扱っている人は全体からみると少数派だろうから, 致しかたないのかも。
NIPS Papers(0-12) dataset (MATLABフォーマット) *1 のように, あらかじめ整数に変換しておくという手もあるが, 訓練データに関してはそれでいいとしても, テストデータに関して毎回それをやるのは面倒だし原理的に問題が多い。

なければ作れ, というわけで, アルゴリズム2巻を参考にして実装してみた。
大羽さんの MATLAB のページに公開してもいいんだけど, NLPに特化している感じがするのでここに公開しておきます。

バグを取って速くしていたら書くのに2日かかってしまった。;

内部的には double hash になっていて, ハッシュ関数は perl 内部で使われているものと同じ。ハッシュを自分で書いたのは数年ぶりなので, 勉強になった。
matlab-hash-0.1.tar.gz の中身は以下のような *.m ファイルからなっています。

matlab-hash-0.1/
matlab-hash-0.1/hashadd.m
matlab-hash-0.1/hashadds.m
matlab-hash-0.1/hashinit.m
matlab-hash-0.1/hashmap.m
matlab-hash-0.1/hashtable.m
matlab-hash-0.1/hashval.m
matlab-hash-0.1/binpow.m
matlab-hash-0.1/README

使い方は中の README を読んで下さい。おまけで, テキストを整数(の配列のセル配列)に変換する関数群 matlab-text-0.1 も公開しておきます。( README )

これを使って, テキストを整数にマップするにはたとえば以下のようにします。 (/usr/share/dict/words を lexicon にする例)

slt:~% matlab
> words = cellload('/usr/share/dict/words');
loading /usr/share/dict/words..
done.
> map = hashtable(words,1:size(words,2));
adding key 45427/45427..
done.
> text = textload('/home/dmochiha/corpus/austen/clean/emma.txt');
reading /home/dmochiha/corpus/austen/clean/emma.txt..
loading lines 14281/14281..
done.
> d = textmap(map,text);
mapping 14281/14281..
done.
> d{100}
ans =
 [ 19451 20830 36967 19255 38643 1369 41328 34619 28419 19897 24271 3073 0 ]
> text{100}
ans =
 { 'happier' 'if' 'she' 'had' 'spent' 'all' 'the' 'rest' 'of' 'her' 'life' 'at' 'Hartfield.' }

(ans は圧縮して表記しました)
/usr/share/dict/words の4万エントリのハッシュを作るのに25秒くらいかかってしまう (180秒くらいだったのを速くした)が, まぁ普通1回しか使わない関数なのでいいことにする。(matlabではコードをベクトル化して内部処理させないと遅くなります。この場合は for 文を回すしかないのでベクトル化できない。) コンパイルするともう少し速くなるかも。

: 前は NIPS abstracts で Abstract だけだったけれども, 去年あたりに見たら本文も全部入っているようです。

tips

ついでに, いくつか気付いた MATLAB tips.

文字列の文字コードを得るには, 単に 0 を足します。(awkみたい。)
たとえば, 'A' + 0 は 65 を, 'abcd' + 0 は [ 97 98 99 100 ] をそれぞれ返します。最初これに気付かなくて, sprintf("%x",..) とか冗長なことをやっていた。
次のような for 文は順番に配列の要素が増えるので遅くなります。
```
for i = 1:n
  a(i) = 0;
end
```
インデックスを逆からたどると, 最初に必要なだけ malloc されるので速くなります。 (要素の数が多いと, かなり劇的に違う)
事前割り当てしておいてもいいんだけど。
```
for i = n:-1:1
  a(i) = 0;
end
```

2004年09月21日(火) [n年日記]

#1 ISMイテキタ

2004年09月30日(木) [n年日記]

#1 hashtable in MATLAB

#2 tips

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.