2011年07月20日(水) [n年日記]

#1 Bouchard Talk

明日ibisml等でアナウンスする予定ですが, Randomized Pruning, Phylogenic inference, Painless unsupervised learning, ...等で有名で, Dan KleinとMichael Jordanの学生 だった Alexandre Bouchard-Cote 氏が来週26日(火)に, 以下の内容で統数研でTalkしてくれることになりました。
自然言語データの変化の系統樹を復元する話です。 (多分, NIPS'08の これ 。)

国内でこういう話はほとんど誰もやっていないと思いますので, ご興味のある方はぜひお越しください。
7/26(火) 15:00〜17:00, 統数研セミナー室5 (統数研第4回統計的機械学習セミナー)

Title: Probabilistic Models of Language Change


I will talk about probabilistic models of language change, and how we
used these models to reconstruct proto-languages and to understand the
statistical regularities of the language change process itself.  I
will illustrate the potential of our methods with our results on the
so called functional load hypothesis.  This conjecture has eluded
classical models for decades, but here I will show how we obtained
compelling evidence for it by using our probabilistic models.

If time permits, I will also talk about new Sequential Monte Carlo
algorithms for the related problems of phylogenetic tree and cognate
inference.  The technique we used to construct these algorithms also
has applications in other NLP inference tasks over combinatorial
spaces, for example alignment and parsing.

2011年07月27日(水) [n年日記]

#1 -

内容的には前半がNAACL2009の話, 後半がまだ論文になっていない Poisson indel process の話でした。
言語の系統樹と最終的な単語の形がわかっている時, 単語の未知の ancient form を推定するという, 一種の教師なし学習で, 内部では Loglinear モデルを 使って, MCMC-EM で学習をしています(前半の場合)。
後半の話は, 系統樹がわからない場合でも, 分岐がポアソン過程に従って起きた と仮定することで, 系統樹との同時学習を可能にするという話だったと思います。

僕は予習をしていたので大丈夫でしたが, かなり high-level picture で, 細かい所までは話さなかった(というか膨大に色々やっているので, 全部話すと 到底時間が足りないのだと思いますが)ため, 技術的な部分は論文を読まないと 分からないかな, という気はしました。
技術的には, NIPS08の論文を見るとわかりますが, 単語全体の ancient form を 1個ずつGibbsで復元すると全くMCMCが動かないので, anchor と呼ばれる数文字の 部分文字列(例えば "wha")の変化前の形("fa"など)を, 根まで一気にproposalを 作って一度に動かすということをしていて, その際のproposalの作り方として MCMCの reversibility を満たすように, 「anchorに直接至るancestry」ではなく, 「その文字列の補集合の ancestry の補集合」を proposal とすると正しいMCMCに なる, という方法を提案しているようです。
InDel(insert/delete)がある場合の原文字列の復元問題であるこの問題は, 歴史言語学以外にも色々な応用があるように思います。
始まる前に Bouchard 氏と1時間くらい話ができて, 非常に有意義でした。
頑張って宣伝したにも関わらず若干人が少なかったですが, やはり講演者を2人 くらいにした方が(遠いので)人が来やすいのかも知れません。

