mots quotidiens.

僕が去年出した無限木構造HMMや教師なし形態素解析がこちらのページで実装されているのを知りました。 iTHMMは自然言語処理の人でも詳しい内容を理解できている人はほとんどいないと思われるので, 驚き。

iTHMMについて, こちらで図入りでものすごく詳しく解説してくれています。嬉しいですね。実装には前提知識がないと半年以上, 上の記事を書くにも一週間以上かかっているとのことで, そうだろうなと思います。
途中で出されている2つの疑問について,

式(20)と(21)が誤記ではないか?というのは, その通りです。実装(英語論文を書くまでは公開していない)では, 実際以下のようになっています。 Stickの値を再帰的に減らしているので, 棒の残りが負になることはありません。

#define cons    make_pair

double
Node::nu ()
{
        pair<double,double> beta;
        double a, b, decay = pow (param->lambda, level);

        if (!tssb->parent)
        {
                /* Be(1, gamma) */
                a = 1;
                b = param->eta * decay;
        }
        else {
                beta = tssb->parent->vsplit (code());
                a = tssb->param->alpha * beta.first;
                b = tssb->param->alpha * beta.second * decay;
        }

        return (a + stop) / (a + b + stop + through);
}

pair<double, double>
TSSB::vsplit (vector<int> code)
{
        vector<int> here;
        return vsplit_ (tree, code, here, 1);
}

pair<double, double>
TSSB::vsplit_ (Node *node, vector<int> &code, vector<int> &here, double stick)
{
        int k;
        double p = node ? node->nu() : empty->nu (here);

        if (code.empty())
        {
                return cons (stick * p, stick * (1 - p));
        }
        else {
                k = shift (code);
                here.push_back (k);

                if (node && k < node->children.size())
                        return vsplit_ (node->children[k],
                                        code, here, stick * (1 - p));
                else
                        return vsplit_ (NULL,
                                        code, here, stick * (1 - p));
        }
}

式(30)と(31)については, これはStick-breakingをあえてHDPのCRPだと思っているので, 基底測度の項が必要で, 論文が正しいはずです。論文には「に比例する」Bernoulli試行と書いてあるのがポイントで, この二つの値の和が直接1になる必要はありません。

ちょうどiTHMMをガウス分布に対応させるコードを書いていたところだったので (TACL等でこれまで時間がなかった), 非常に驚きました。
他にも多数の実装が公開されているようで, 素晴らしいですね。

トピックモデルや協調フィルタリングなどで, 「離散分布の時系列」を考えたくなることは時々あるのではないかと思います。一番典型的な例はトピックモデルで, 時刻tのトピック分布 θ_t が時刻t-1のトピック分布 θ_t-1 に依存して決まっている, というマルコフモデル。
離散分布の一番基本的な分布はディリクレ分布なので, 最も素直には, これにはαをスカラーとして

θ_t ～ Dir(αθ_t-1)

とすればよいように思えます。実際, NTT岩田君の2009年のIJCAIの論文 "Topic Tracking Model for Analyzing Consumer Behavior" でも基本的にこの方法が使われています。(ただしαが時変なので, 下の議論とは正確には異なっています。後述)

これは一見よさそうに思えるのですが, 少し考えていて, 実はこれは時系列モデルとしては適切でないことに気付きました。
いま, 問題を最も簡単にして, 二項分布の確率 p_tの時系列を考えてみます。これは上の二次元版なので,

p_t ～ Be(αp_t-1,α(1-p_t-1))

になります(Be()はベータ分布)。ベータ分布 Be(a,b) からの乱数は, スケール係数1 *1 のガンマ分布からの乱数 γ₁～Ga(a,1),γ₂～Ga(b,1)を生成して p = γ₁/(γ₁+γ₂)とすればよいので, 上記の時系列モデルでは Ga(αp_t-1,1)のような乱数を引くことになります。

ここでGa(a,1)はaが小さい値のとき, 0方向にきわめて偏った分布なので, pがすでに0に近い値のとき, 次の時刻の確率の値が今より大きくなる確率は pが小さいほど, どんどん小さくなっていきます。つまり, pが小さくなる方向にバイアスがかかることになります。

ということで, 実際にMATLABでプログラムを書いて試してみました。
初期値がp=0.5のとき, 上記の時系列モデルで, α=1,10,100のときの結果が以下です。

α=1のとき

α=10のとき

α=100のとき

α=1やα=10では, 予想通り確率が最終的に0または1に吸い込まれ, 戻ってこれなくなることがわかります。 α=100では吸い込まれることは少ないですが, 逆にスケールが非常に大きい(=中間の確率密度がきわめて高い)確率分布を仮定していることになるので, 確率が0や1に寄ることができず, ほとんど0.5前後の値だけをふらふらすることになります。

というわけで, 多項分布の時系列には多項分布をそのままディリクレ分布で考えるのは不適切で, 他の分布, たとえばガウス分布をロジスティック変換したもの (ロジスティック正規分布)のようなものを考えた方がいいように思えます。ちなみに上の岩田君の論文では, αは固定ではなく, 時刻t毎に推定するとしているので, この問題は回避されていると思います。
実際にロジスティック分布, つまりガウス分布の通常のランダムウォークをロジスティック変換した時系列は以下のようになります。


α=0.5のとき	α=1のとき	α=10のとき

ここでαはランダムウォークの幅です。(x(t)=x(t-1)+αN(0,1)) α=0.5のときは一度小さい値になった後も移動がゆっくりですが, 末端で確率が回復しています。またα=1,10のときは確率が1または0に振れても, またそこからどんどん戻ってきていることがわかります。
他の可能性として, そもそもディリクレ分布(ディリクレ過程)は上の作り方からわかるように, 正規化ガンマ分布(ガンマ過程)なので, ガンマ分布のスケールパラメータを e^r倍にして動かすという方法があると思います (rは正規乱数)。単純にガウス過程をロジスティック変換するという方向(対数ガウスCox過程)もあります。ただいずれにしても結局正規分布やそれに似たものが入ってくるので, 時系列モデルを考える際には連続分布としてのガウス分布は避けられないのではないか, という気がします。 *2 そういう意味で, トピック分布の時系列にロジスティック正規分布を考える Dynamic Topic Model は(推定が変分ベイズによる近似で非常に難しいという点を除けば), 妥当なことをしているのではないかと改めて思いました。

: 1でなくてもよく, 共通であればよいですが, ここでは簡単のため1とします。
: ガンマ分布を使ったランダムウォークもMATLABのスクリプトを書いてみましたが, 容易に0に縮退するか∞に発散するかのどちらかになりました。

2017年04月07日(金) [n年日記]

#1 iTHMM

2017年04月27日(木) [n年日記]

#1 Discrete probability time series

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.