mots quotidiens.

土曜日は久しぶりで, 関西機械学習勉強会:サークルK の第9回の会合でした。
場所は京大本部キャンパスの田中利幸研究室。小セミナー室が満員になる人数で, 大体15～18人くらい参加されたように思います。

内容は相変わらずハイレベルで色々あり, 覚えている範囲では

Compressed Sensingの解説と田中先生らによる最近の拡張 (田中先生)
NIPS2010まとめ＆報告 ( 石黒君 )
画像領域モデルのBPによる改善 (三好先生)
拡散ＭＲＩ画像に基づくコネクトミクス研究について (大羽さん)
論文紹介: Dependent PYPによる画像分割 (持橋)
オンライン凸最適化のイントロ (田中先生)
グラフィカルモデルの近似分布の話 (前田さん)
準Newton法の確率的考察&Bregman化 (金森さん)

のような感じでした。タイトルをメモっておかなかったのが悔やまれます。。

大羽さんの話は, 統数研のワークショップ「神経科学と統計科学の対話」の予行?で, 大脳の白質を介した部位の繋がりを測定して, そのネットワーク構造を求める, という話でした。「タワシ」みたいな構造が可視化できるという。
個人的に, 小学校2年生くらいの時に, 大脳の灰白質が思考を司っているのは分かったけれど, その下の白質にはいったい何があるんですか?という質問を「こども電話相談室」に投げようかと思ったという記憶があって *1 , 実際謎だったのですが, 何か30年位たった今になってスッキリしたという..。w

三好先生が画像のMRF的な領域分割の話をされていたので, 僕は前から NIPS 2008 の Erik SudderthのPY過程画像分割の論文を紹介したいと思い, 今回紹介してみました。簡単に言うと, GPを水平にスライスして「画像領域」を生成し, その広さとカテゴリがさらにPower Lawに従うような生成モデルです。

pysceneseg-20101218.pdf

読んでみると, 8ページに情報が物凄く圧縮されていて, 論文紹介である程度きちんと読んで良かったなというのが感想でした。

休憩を狭んで昼1時から6時過ぎまで難しい話を聞きまくりで, 翌日は微妙にぐったりでした。終了後, 田中研の学生室(aka. Bar田中)でそのまま夜まで懇親会&忘年会。
次回はNAISTで, という話が出ているので, 上のような話に興味のある方はぜひ, という感じです。

: 回答者の方もそこまで専門ではないだろう, と思って結局やめました。

「カーネル法入門」

統数研の福水さんから(+伊庭さんの計らいで), 先日朝倉書店から出たばかりの『カーネル法入門 ―正定値カーネルによるデータ解析―』を献本していただきました。(ありがとうございました。)

内容を全部読んでからレビューすると凄く時間がかかってしまうので(&, 内容については僕より, T-PRIMALの最適化系の方の方が適していると思うので), 簡単に赤穂さんの『カーネル多変量解析』(こちらも当然購入)との違いを言うと, 『カーネル多変量解析』の方は機械学習よりに書かれているのに対し, 『カーネル法入門』の方は福水さんらしく, 結構数学的に書かれているなぁ, というのが感想でした。
どちらも非常に良い本だという気がしますが, 『カーネル多変量解析』の方は実務家の方が読んでも大丈夫そうなのに対して, 『カーネル法入門』の方はより専門的で, 研究者向けという感じがします。と言ってもわかりにくいわけでは全然なく, コンパクトに非常に密度の濃い内容が書かれているように思います。7章までで『カーネル多変量解析』の内容がほぼ入っていて, 8,9.10章で最新の内容が入っている感じ。
ちなみにNLP的には, string kernelや一般に convolution kernel が大事ですが, これまで日本語の解説はあまりなかったはずで, 7章ではかなり丁寧に書かれているので, そういう意味でもお薦めかも知れません。実際には, NLPではグラム行列を全部計算するのはコストが高すぎるので最近あまり使われていませんが, 適当に"サボる"方法が最近色々あるようなので, これとは別に, そういう話がどこかにまとまっていると喜ぶ人は多そうな気がします。

-

追記: 3.6節に, グラム行列の主成分を使った低ランク近似の話があります。これはグラム行列自体を(目的と関係なく)近似する方法なので, 一般的には, データのうちSVMの「サポートベクター」に当たるような一部の要素を確率的にサンプルして, 目的関数の値を最適化するように次々と変えていく, という話をどこかで読んだような気がします。(GP本?)

[n年日記]

ISM Talk

stats(統計学会メーリングリスト)やibismlに流れましたが, 来月1/19(水)の統数研NOE統計的機械学習セミナーで話すことになりました。 [Link]

前半は Yee Whye で後半が僕という感じで, 僕は今やっている半教師あり形態素解析の話をする予定です。
この話は外で発表するのは今回が最初です。今年の言語処理学会2011 にも出す予定ですが(きのう申し込んだ), NLP2011は豊橋技科大なので, 東京方面でご興味のある方はどうぞお越し下さい。

Unsupervised and Semi-supervised Learning of Nonparametric Bayesian
Word Segmentation

For the second part, I extend the NPYLM to semi-supervised learning using
Conditional Random Fields (CRF). Although NPYLM can be regarded as a kind of
semi-Markov model, naive combination with semi-Markov CRF is prohibitive
and proves to work badly. To cope with this problem, we convert the
information between Markov CRF and semi-Markov NPYLM to yield a consistent
combination of discriminative and generative models.  We show the results
on segmenting twitters, speech transcripts, dialects based solely on
newspaper supervised data, as well as the results for standard datasets on
Chinese word segmentation.

* Latter half of the talk is a joint work with Jun Suzuki and Akinori Fujino
(NTT CS Labs).

2010年12月18日(土) [n年日記]

#1 サークルK第9回

#2 「カーネル法入門」

-

2010年12月28日(火) [n年日記]

#1 ISM Talk

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.