8/29(土)-8/30(日)に渋谷・神宮前のスマートニュース社で行われた,
第7回最先端NLP勉強会
に参加してきました。
スタッフは1〜2本ということで2本選択したところ, そんな人は僕だけだったという
落ち。w
僕は Greg Durrett の "Neural CRF Parsing" と, Brian McMahanの "Bayesian Model
of Grounded Color Semantics"を紹介しました。後者は投票が多かったので僕が読む
ことにしたのですが, 技術的には微妙だったので, 前者の Neural CRF Parsing の
スライドを公開しておきます。
当日出た質問でHとWを一つの行列にして学習すれば良いのではという話ですが, 後で
考えてみたところ, f_oは文法ルールのidentityのスパースなベクトルで, WSJコーパス
の場合は6000次元ほどあるので, 各200次元ほどある単語の埋め込みを12個連結した
2400次元の入力と直接結ぶのでは無駄が大きすぎる&線形な関係しかモデル化できない
ので, 中間の200次元の隠れ層を導入してReLUで非線型性を入れる, いわゆるニューラル
ネットの形をしているということのようです。ある意味, Wの方がf_oを低次元化する
役割を果たしているので, 論文に書いてあるように特にf_oの次元をさらに落とすような
必要はなさそうな気がします。
なお, 質問は出なかったですが, Conditional Neural Fields (CNF)との違いは, CNFは
埋め込みに相当する情報を教師ありデータから学習するのに対し, この話では係り受け
解析用に大量コーパスからすでに学習された単語埋め込み(Bansal+ 2014)から始めて
いる, つまりimplicitに外部の大量データを使っているということだと思います。
埋め込み自体を学習しても性能が上がらなかったという記述は, 教師ありデータから
得られる情報は限られている, ということなのだと思います。
終了後にスマートニュース社の中を案内していただき, 徳永さんや海野さんなどとも
色々お話することができました。神宮前は Hysteric glamour, Paul Smithなど誰でも
知っているような有名なブランドの路面店が目白押しで, その中に技術系の会社がある
というのはちょっと不思議な感じでした。
僕の発言だけ抜粋.
([daichi@pine.aist-nara.ac.jp] logged in @ 2004-08-31(Tue) 15:59:06 JST)
(15:59:10)[daichi] 休憩
(15:59:16)[daichi] だんだんわかってきたけど
(15:59:22)[daichi] これ証明するんですか。。。。
(16:00:25)[daichi] あーあー
(16:01:04)[daichi] 帰納法を計算すると, 係数がまた帰納法になっている
(16:01:06)[daichi] という。。。
(16:02:29)[daichi] この sqrt{1+kσ^2} の k がどっから来てるのかわからない
(16:02:33)[daichi] うーうー.
(16:15:44)[daichi] 正規分布の Mixture になっていて
(16:15:45)[daichi] 混合比がまた再帰的に書かれているのだな。
(16:15:57)[daichi] そう思えばいいような気がしてきた.
(16:20:34)[daichi] kがどっから来てるのかわかった
(16:20:35)[daichi] なんかわかってきた。