mots quotidiens.

Talkは無事終了しました。
Yee Whyeの他の多くのTalkと違い, 今回は partition の分布としての厳密さを妥協しない話で, 個人的には非常に良かったんじゃないかと思いました。
最前列で鋭い質問を連発されていた方が, 最初だけ一瞬誰だかわからなかったのですが(普段と違って眼鏡を掛けてらしたので), 田中先生だった件。w

NTT外からも沢山来ていただき, 多分25～30人くらいはいたのではないかと思います。僕も含めて, 刺激になれば良かったのではないかと思います。
現在進行中の話だったのでスライドは公開されないと思いますが, ポイントは

遺伝子群(もちろん, 話は遺伝子に限らない)のクラスタリングの変異構造を Coagulation-Fragmentation で捉えることができるということ,
普通のHMMと違い, 理論的に様々な良い点があること (わかりやすいのは, 僕が途中で質問したようにクラス数が時変なことですが, 他にも色々),
連続時間の Markov Jump process になるので, 学習には確率的な離散化を行って Forward-Backward を走らせるというテクニックを使っているらしいこと (詳細は言わなかった),

などでしょうか。
昼食時に聞いた話では, 実装には2ヶ月掛かっているのだそうです。凄い。

最後に帰る前に所長室で, Gatsbyで以前一緒だった上田さんと研究の話をしていましたが, 正直写真を撮りたいくらいでした。

内部で先月Talkをした時に, 渡辺さんが, C/C++でこういう文字タイプの判別を行うにはIBMの ICU を使うといいと教えてくれた。

ICUはUnicodeを扱うフリーソフトで, 基本的にUTF-16を扱うもののようなので, 内部表現がUTF-16になるglibcでは, そのまま wchar_t や wstring の要素を渡すことができるようです。
ICUには正規表現やcharacter iteratorなど様々な機能があるようですが, C/C++で文字がひらがな/カタカナ/漢字かどうかを判別したいということは自然言語処理でよくあるかも知れないのと, あまり検索しても方法を紹介しているページはないようなので, 自分用のメモも兼ねて。

文字がひらがな/カタカナ/漢字(中国語もここ)のどれなのかは, それぞれUnicodeのブロックが異なるので, uchar.h に含まれる ublock_getCode() を使って, 基本的には以下のようにすればよいようです。(実際の僕のコードではもう少し色々やっています)

#include "unicode/uchar.h"
#include "unicode/utypes.h"
#include "unicode/uscript.h"

wtype_t
wtype (wchar_t w)
{
        UChar32 c = (UChar32) w;
        UBlockCode bc = ublock_getCode(c);
        UErrorCode err;

        if (bc == UBLOCK_HIRAGANA)
                return U_HIRAGANA;
        else if (bc == UBLOCK_KATAKANA)
                return U_KATAKANA;
        else if (bc == UBLOCK_CJK_UNIFIED_IDEOGRAPHS)
                return U_HANJI;
        else if (bc == UBLOCK_HALFWIDTH_AND_FULLWIDTH_FORMS)
        {
                UScriptCode uc = uscript_getScript(c, &err);
                if (uc == USCRIPT_KATAKANA)
                        return U_KATAKANA;
                else
                {
                        if (u_getIntPropertyValue(c, UCHAR_WORD_BREAK)
                            == U_WB_KATAKANA)   /* "-" in hankaku */
                                return U_KATAKANA;
                }
        }
}

注意すべきなのは最後の半角カナの場合で, これはブロック Halfwidth_And_Fullwidth_Forms (FF00-FFEF)に入っていますが, ここにはハングルの半角カナ(というのがあるらしい)も同時に入っているので, カタカナかどうかを判別するには, さらにScript属性を見て, USCRIPT_KATAKANA であれば(半角)カタカナ, という判別をしています。

さらに, 実はよく見ると半角カナの"ｰ"はScript属性がカタカナでないようで(!) このままではカタカナに分類されません。
このためには, "ｰ"のProperty をよく見ると, Word_Break 属性がKatakanaになっているので, さらにここを見て判別してやります。(Word_Break属性を直接取る関数はないようなので, u_getIntPropertyValue で UCHAR_WORD_BREAK を取り出します。)
これでめでたくwchar_tの文字が例えばひらがな/カタカナ/漢字かどうかを判別できて, 上のコードでOKのようです。これで 2008/9/17の日記のように, 自分で文字コードを直書きする必要がなくなりました。

メモ: 各ブロックやプロパティにどんな文字が含まれているかは, http://unicode.org/cldr/utility/properties.jsp を見ると全部わかるようです。

2011年01月29日(土) [n年日記]

#1 Yee Whye Talk終了

2009年01月29日(木) [n年日記]

#1 wchar_t & ICU

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.