8/29(土)-8/30(日)に渋谷・神宮前のスマートニュース社で行われた,
第7回最先端NLP勉強会
に参加してきました。
スタッフは1〜2本ということで2本選択したところ, そんな人は僕だけだったという
落ち。w
僕は Greg Durrett の "Neural CRF Parsing" と, Brian McMahanの "Bayesian Model
of Grounded Color Semantics"を紹介しました。後者は投票が多かったので僕が読む
ことにしたのですが, 技術的には微妙だったので, 前者の Neural CRF Parsing の
スライドを公開しておきます。
当日出た質問でHとWを一つの行列にして学習すれば良いのではという話ですが, 後で
考えてみたところ, f_oは文法ルールのidentityのスパースなベクトルで, WSJコーパス
の場合は6000次元ほどあるので, 各200次元ほどある単語の埋め込みを12個連結した
2400次元の入力と直接結ぶのでは無駄が大きすぎる&線形な関係しかモデル化できない
ので, 中間の200次元の隠れ層を導入してReLUで非線型性を入れる, いわゆるニューラル
ネットの形をしているということのようです。ある意味, Wの方がf_oを低次元化する
役割を果たしているので, 論文に書いてあるように特にf_oの次元をさらに落とすような
必要はなさそうな気がします。
なお, 質問は出なかったですが, Conditional Neural Fields (CNF)との違いは, CNFは
埋め込みに相当する情報を教師ありデータから学習するのに対し, この話では係り受け
解析用に大量コーパスからすでに学習された単語埋め込み(Bansal+ 2014)から始めて
いる, つまりimplicitに外部の大量データを使っているということだと思います。
埋め込み自体を学習しても性能が上がらなかったという記述は, 教師ありデータから
得られる情報は限られている, ということなのだと思います。
終了後にスマートニュース社の中を案内していただき, 徳永さんや海野さんなどとも
色々お話することができました。神宮前は Hysteric glamour, Paul Smithなど誰でも
知っているような有名なブランドの路面店が目白押しで, その中に技術系の会社がある
というのはちょっと不思議な感じでした。