国立国語研究所・統計数理研究所 合同研究集会
統計的言語研究の現在
コーパス日本語学ワークショップ2015・サテライトシンポジウム
日時:2015年9月4日 (金) 10:00〜16:00
場所:国立国語研究所
講堂 (東京都立川市緑町10-2)
オーガナイザー:前川喜久雄・浅原正幸 (国立国語研究所), 持橋大地 (統計数理研究所)
言語学においてはデータが整備されるに伴って統計的方法が必須のものになりつつありますが,
そのために必要となる知識や方法は, まだ広く共有されているとはいえません。
一方で統計的方法の進んでいる自然言語処理は, 従来は構文解析や形態素解析といった 工学的問題を解いている感がありましたが, 最近では単語・文・文章の意味, 言語類型論, 言語地理学といった, 従来は言語学が扱っていた分野にその幅を広げつつあります。
本シンポジウムでは, こうした言語に対する統計的研究を統一的にとらえ, 最先端の研究をご講演 いただくことで, 統計的アプローチの知識を深めるとともに, 統計によって言語をとらえられる 可能性の幅を皆様に感じていただくことを目的としています。
参加は無料で, どなたでもご参加できます。 皆様のご参加をお待ちしています。
当日直接お越しいただけますが, 参加者把握のため, 参加を予定されている方は こちらから参加登録いただけますと幸いです。
一方で統計的方法の進んでいる自然言語処理は, 従来は構文解析や形態素解析といった 工学的問題を解いている感がありましたが, 最近では単語・文・文章の意味, 言語類型論, 言語地理学といった, 従来は言語学が扱っていた分野にその幅を広げつつあります。
本シンポジウムでは, こうした言語に対する統計的研究を統一的にとらえ, 最先端の研究をご講演 いただくことで, 統計的アプローチの知識を深めるとともに, 統計によって言語をとらえられる 可能性の幅を皆様に感じていただくことを目的としています。
参加は無料で, どなたでもご参加できます。 皆様のご参加をお待ちしています。
当日直接お越しいただけますが, 参加者把握のため, 参加を予定されている方は こちらから参加登録いただけますと幸いです。
新着情報(2015/9/5): 本シンポジウムは116名(講演者含まず)のご参加をいただき, 無事終了いたしました。各講演者からのスライドを順次アップロードしていますので, ご利用いただければ幸いです。
10:00〜10:05 ごあいさつ
樋口知之 (統計数理研究所 所長)
10:05〜10:15 オープニング・概要紹介
前川喜久雄 (国立国語研究所),
持橋大地 (統計数理研究所)
10:15〜11:45 セッション I
10:15-11:00 「言語変化と系統への統計的アプローチ」
村脇有吾 (九州大学) [講演スライド]
村脇有吾 (九州大学) [講演スライド]
【アブストラクト】
言語類型論は語順や助数詞の有無といった特徴量によって言語を分類する分野である。 類型論の特徴量は独立ではなく、依存関係があることが知られており、特 徴量の依存関係から言語間で一般に成り立つ性質 (普遍性) が議論されてきた。 この問題には、人間の手作業よりも、計算機による統計的推論が適していると考えている。 個々の手がかりが不確実であり、そのため、候補が組み合わせ爆発を起こすからである。 本講演では、計算モデルを用いる従来研究を概観するとともに、 この問題を教師なし表現学習として定式化できることを議論する。
言語類型論は語順や助数詞の有無といった特徴量によって言語を分類する分野である。 類型論の特徴量は独立ではなく、依存関係があることが知られており、特 徴量の依存関係から言語間で一般に成り立つ性質 (普遍性) が議論されてきた。 この問題には、人間の手作業よりも、計算機による統計的推論が適していると考えている。 個々の手がかりが不確実であり、そのため、候補が組み合わせ爆発を起こすからである。 本講演では、計算モデルを用いる従来研究を概観するとともに、 この問題を教師なし表現学習として定式化できることを議論する。
11:00-11:45 「社会言語学におけるデータ分析の展開」
阿部貴人 (専修大学) [講演スライド]
阿部貴人 (専修大学) [講演スライド]
【アブストラクト】
この講演では,社会言語学分野におけるデータの紹介を中心に, どのような観点で分析がなされてきたか,また,これまで分析 されてこなかったことにどのようなものがあるのかを検討する。 社会言語学には,データの二次分析に適したデータが数多くあるにも かからわず,データ設計に関わる問題から,十分には活用されて こなかった経緯がある。それらの問題点と解決法を取りあげ, 社会言語学データの利活用にむけた議論を展開したい。
この講演では,社会言語学分野におけるデータの紹介を中心に, どのような観点で分析がなされてきたか,また,これまで分析 されてこなかったことにどのようなものがあるのかを検討する。 社会言語学には,データの二次分析に適したデータが数多くあるにも かからわず,データ設計に関わる問題から,十分には活用されて こなかった経緯がある。それらの問題点と解決法を取りあげ, 社会言語学データの利活用にむけた議論を展開したい。
13:00〜14:00 特別講演
「カウントデータの統計モデリング入門」
久保拓弥 (北海道大学) [講演スライド]
久保拓弥 (北海道大学) [講演スライド]
【アブストラクト】
この講演では「0個,1個,2個,…」と数えられるカウントデータの簡単な統計モデルを紹介したい. 一般化線形モデル (GLM)の一部であるポアソン回帰とロジスティック回帰のモデルとそのあてはめは,カウントデータにおける「直線」あてはめとでもいうべき基本である.カウントデータそのものをあつかうならポアソン回帰,比率ならロジスティック回帰と使い分けることが多いが,じつはポアソン回帰の使いかたを工夫するとロジスティック回帰と等価な結果が得られる.この性質をつかうと多項分布のあてはめが簡単になったり,さらに階層ベイズモデル化も加えることによって「スパースな単語の集合」などにも対応できる可能性がある.言語研究の経験がない演者が,生態学のデータ解析との類似点などから思いついた,このようなGLM応用の方法を会場の皆さんと議論してみたい.
この講演では「0個,1個,2個,…」と数えられるカウントデータの簡単な統計モデルを紹介したい. 一般化線形モデル (GLM)の一部であるポアソン回帰とロジスティック回帰のモデルとそのあてはめは,カウントデータにおける「直線」あてはめとでもいうべき基本である.カウントデータそのものをあつかうならポアソン回帰,比率ならロジスティック回帰と使い分けることが多いが,じつはポアソン回帰の使いかたを工夫するとロジスティック回帰と等価な結果が得られる.この性質をつかうと多項分布のあてはめが簡単になったり,さらに階層ベイズモデル化も加えることによって「スパースな単語の集合」などにも対応できる可能性がある.言語研究の経験がない演者が,生態学のデータ解析との類似点などから思いついた,このようなGLM応用の方法を会場の皆さんと議論してみたい.
14:15〜15:45 セッション II
14:15-15:00 「Twitter解析における現実と言語の差異」
荒牧英治 (奈良先端科学技術大学院大) [講演スライド]
荒牧英治 (奈良先端科学技術大学院大) [講演スライド]
【アブストラクト】
TwitterなどのSNSの普及により,言語処理の応用の可能性が大幅に広まっている.例えば,地震の把握,風邪やインフルエンザなどの疾患のサーベイランスや,選挙の予想まで,様々なアプリケーションが実現されているが,これが可能なのは,静的な従来のコーパスと異なり,SNSデータが,時系列で,かつ,位置情報と紐付いた形で蓄積されるテキストであり,トポロジカル(立体感のある)なコーパスであるからである.しかし,SNSから得られたデータを実際の社会のデータと比較すると,時として大きな乖離が見られる場合がある.なぜ,この乖離が起こるのか,言語処理や言語学を超えた認知モデルとして,この問題を議論したい.
TwitterなどのSNSの普及により,言語処理の応用の可能性が大幅に広まっている.例えば,地震の把握,風邪やインフルエンザなどの疾患のサーベイランスや,選挙の予想まで,様々なアプリケーションが実現されているが,これが可能なのは,静的な従来のコーパスと異なり,SNSデータが,時系列で,かつ,位置情報と紐付いた形で蓄積されるテキストであり,トポロジカル(立体感のある)なコーパスであるからである.しかし,SNSから得られたデータを実際の社会のデータと比較すると,時として大きな乖離が見られる場合がある.なぜ,この乖離が起こるのか,言語処理や言語学を超えた認知モデルとして,この問題を議論したい.
15:00-15:45
「眼球運動測定による注視時間データと反応時間としての読み時間データの分析」
新井学 (東京大学・成城大学), Douglas Roland (東京大学)
[講演スライド]
【アブストラクト】
眼球運動測定技術の進歩により, これを応用した研究は1970年代半ばより急速に増加した。 特に, 心理言語学と呼ばれる言語の処理メカニズムを対象とする研究分野では, 過去40年近くに渡りこの実験手法によって多くの重要な研究成果が得られてきた。 本発表では, 眼球運動測定から得られる注視時間データ、中でも読み実験から得られる データと視覚世界パラダイムと呼ばれる視覚刺激を用いた実験手法から得られるデータの 2つのデータタイプについて, 統計分析方法を議論する。 加えて未だ広く用いられている, 自己ペース読み課題などから得られる反応時間としての 読み時間データの分析方法についても検討し, データタイプ間の質的及び量的特性の差異, それに基づく分析方法の違いを議論する。
分析アプローチとして線形混合モデルを軸に, 実際の心理言語実験データにおいて, どのように被験者及び実験刺激の個体差によるランダムな影響, また興味対象である 実験要因による影響の被験者及び実験刺激間の不均一性を考慮した上で, 実験操作による真の影響を探り検定すべきか考察する。
眼球運動測定技術の進歩により, これを応用した研究は1970年代半ばより急速に増加した。 特に, 心理言語学と呼ばれる言語の処理メカニズムを対象とする研究分野では, 過去40年近くに渡りこの実験手法によって多くの重要な研究成果が得られてきた。 本発表では, 眼球運動測定から得られる注視時間データ、中でも読み実験から得られる データと視覚世界パラダイムと呼ばれる視覚刺激を用いた実験手法から得られるデータの 2つのデータタイプについて, 統計分析方法を議論する。 加えて未だ広く用いられている, 自己ペース読み課題などから得られる反応時間としての 読み時間データの分析方法についても検討し, データタイプ間の質的及び量的特性の差異, それに基づく分析方法の違いを議論する。
分析アプローチとして線形混合モデルを軸に, 実際の心理言語実験データにおいて, どのように被験者及び実験刺激の個体差によるランダムな影響, また興味対象である 実験要因による影響の被験者及び実験刺激間の不均一性を考慮した上で, 実験操作による真の影響を探り検定すべきか考察する。
15:45〜16:00 クロージング
浅原正幸 (国立国語研究所)
*お知らせ
本シンポジウムの発表内容は, 登壇者以外の執筆者 (伝康晴 (千葉大学)・岡崎直観 (東北大学)・能地宏(国立情報学研究所)) を加えて加筆し, 統計数理研究所和文誌 『統計数理』第64巻2号 (2016年3月発刊) 特集号「統計的言語研究の現在」として刊行予定です。『統計数理』は全文を無料でWebから 閲覧することができます。ご期待ください!