きまぐれ日記: 2005年02月アーカイブ

« 2005年01月 | メイン | 2005年03月 »

2005年02月28日

AJAX で KWIC

年度末の忙しさにめげ気味なのですが、
現実逃避にこんなの作ってみました。

suffix array (sary) を使って検索用の
インデックスを作っています。検索対象を前後の文脈付きで表示します。

CGI はすべて C で書いているので、心地よく動作しますが、
大量アクセスはご遠慮ください。;)
そのうちソースを公開します。

投稿者 taku : 22:20 | コメント (248) | トラックバック

PRMU

PRMUで公演させていただきました。
大人数の前でかなり緊張しました。時間配分の点で
かなり失敗してもうダメダメでした。鹿島さんの話は私のに
比べてかなり分かりやすかったですね。

久々に鹿島さんとお話できました。
社内的にNIPSに出せるようになったので、強く勧めてみました。

投稿者 taku : 00:44 | コメント (4) | トラックバック

2005年02月22日

Piecewise Training with Parameter Independence Diagrams: Comparing Globally- and Locally-trained Linear-chain CRFs.

http://www.cs.umass.edu/~mccallum/papers/lcrf-nips2004.pdf

Andrew McCallum の NIPS WS の話。この人論文書きすぎ ;)
NIPS WS では弟子の Sutton が話してた

Large undirected graphical models are expensive to train because 
they require global inference to calculate the gradient of the parameters.
 We describe a new method for fast training in locally-normalized pieces.
 Amazingly the resulting models also give higher accuracy than their 
globally-trained counterparts

CRF のようにシーケンス全体に対する大域的なパラメータ推定をするのは
コストが高い。MEMM はそれをサブ問題に分割してとくが
label-bias (大域的な情報を見失うことによる弊害) がおきる。
この論文は、要素の分割に対する新しい提案で、
CRF と互角かそれ以上の性能でかつ学習コストを抑えるという話。
面白そうだ。 NIPS WS でのトークを聞いてるのでだいたいの
アイデアは分かってるのだが、詳細に読んでみる価値あり。

うぉえー　俺の論文参照している。うげげ。

投稿者 taku : 23:28 | コメント (1) | トラックバック

野沢温泉

週末の話ですが野沢温泉にいってきました。
４人で交代しながらの運転だったので比較的楽でした。
今シーズン最後のスノーボードでしょう。
atsuのレポートと写真もあります。

３年前に逝ったときは、シュナイダーコースを泣きながら
降りた記憶があったのですが、今回はどのコースもなんて
ことなかったです。上達したなぁ～と思います。
水泳で基礎体力強化をしたのもかなり効いてます。
カービングターンをしてるつもり？なのですが、なんとも
いえないので、来年はビデオに撮るなりスクールに入るなり
したいです。

投稿者 taku : 22:54 | トラックバック

Machine Learning: Discriminative and Generative

投稿者 taku : 00:57 | トラックバック

2005年02月21日

ハッカーと論文

http://namazu.org/~satoru/blog/archives/000021.html

インパクトのあるすばらしい論文を量産している研究者は
たいていハッカーとしての素質もすばらしい。
私の領域だと、Andrew McCallum 氏は
その典型かな。 GNUStep の元メンテナーという経歴を持っているし、
いろんなツールや言語処理用のデータをばんばん公開している。

自分のアイデアや比較のための他人のアイデアをすばやく実装するには
ハッキング能力が不可欠。つまり、ハッカー的な学生は研究者として成功する
チャンスは十分ある。(どっちで成功したいかは本人の自由ですが)

ハッカー的な学生は、論文は訓練として割り切ってほどほどに取り組めばよい。

研究者を育てていく指導教官にはちょっと酷な話だ。
能力のある人がわざと手を抜いてしまうのか。辛いなぁ～

ハック能力/モチベーションをいかに研究能力/モチベーションに変えていくかが
指導教官の手腕にかかるだろう。優秀な人はハックであれ研究であれどんなフィールド
でも成功する。興味のないテーマを無理やりやらせて論文を
でっち上げるより、ハック能力を生かせるようなテーマを選定し、その気に
させなければ、優れた人材がアカデミアからどんどんいなくなっていく。

投稿者 taku : 19:50 | トラックバック

2005年02月17日

Jess: 自動小論文採点

評価が難しい領域において、その評価方法や機械による
自動評価手法が研究になることがしばしばある。

この小論文の自動採点システムもその例だろう。

機械翻訳の BLEU などが代表例
BLEU の ACL02のプレゼンを聞いたが、クレームする
人で長蛇の列ができてました。それほどこの業界を
かき回した方法論で、だれもこれがイイとは思っていないのですが、
みんな使っているという意味でデファクトになっています。
マネージメント力？

自動評価で思うことは、評価関数、もっと一般的には目的関数が陽に
定義できると、それを最大化するようなパラメータ
チューニングができてしまうということ。ほんとうにそれで良いのか？
BLUE は単語の連接まで見るからまだましだが、単語集合のみで
評価が決まる場合は、適当に意味なく単語を並べた
文のスコアが高くなってしまうかもしれない。
すなわち、テキスト生成の自動評価は、たとえ
単語の集合だけで評価が決まるにせよ、言語的な正しさ、
つまり言語モデルを考慮しないと話にならない。

投稿者 taku : 00:41 | コメント (17) | トラックバック

2005年02月16日

colinux

職場で colinux がはやってるようで、ノウハウをまとめて
いただいたので、それに便乗させてもらいました。

colinux は、windows 上で動く linux エミュレータみたいなものです。

これはとてもイイです。 cygwin 捨ててしまいそう。

まず、動作や起動が機敏。サクサク動いてくれます。速度低下はほとんど感じません。
cygwin より速い! ホストOSが hyperthreding なのが効いてると思うのですが、
colinux の cpu を 100%にしても、ホストは高負荷になりません。

なんやかんやで Linux なので、作業環境の構築がすごく楽です。
がんばって tex 環境を windows 上に作るといった
不毛なことをしなくていいのがいいですね。

X は動きませんが、昔から (Cygwin ですら) PC-X-Server を使っているので、
そのへんはまったく問題になりません。 VNC を使ってもいいでしょう。

投稿者 taku : 04:26 | コメント (1) | トラックバック

2005年02月13日

LDA, PMM

時間ができたのでちょい勉強

LDAとPMM

ともに、テキスト生成モデルであるが、1つのテキストは複数のトピックから
生成されるという前提を置いている。結局のところ、この二つはほとんど
同じのようだ。

共通点:
トピック毎に別々の多項分布を作り、多項分布の
パラメータをトピックシンプレックスの重みで混合した値を
全体の多項分布のパラメータと思う。あとは、シンプレックス上の全点で
周辺化すれば完成。

相違点:
LDAはトピックシンプレックスをディレクレ分布から生成, 周辺化
PMMはトピックシンプレックスを各トピックの離散的な点から生成, 周辺化
PMM のほうがトピックに鋭いピーク
LDA は、ディレクレを仮定するので、ソフト
PMM の計算は離散的な点という意味で楽、
LDA は周辺化する際に積分計算が必要となるので、計算がやっかい。

気になるのは、複数トピックの仮定というのがこれからどうなるのかということ。
blog のように lightweight な文書が増えたらどうなんだろう?
1blog に複数のトピックを書くのは SEO 的にマズーだし。

投稿者 taku : 21:38 | トラックバック

2005年02月11日

吉野家

牛丼限定販売につられて逝ってしまいました。
そしたらもう駐車場から込んでて、さらに入り口に行列できてるんですよ。
ふだん絶対こないような家族連れとかカポーとかいるし。
(;ﾟдﾟ)ｧ... これを思い出してしまった。

こんな事件もあったらしい。

この日に牛丼を食べたという証明書? みたいのをもらいました。
プチ優越感

投稿者 taku : 21:38 | トラックバック

本格翻訳

投稿者 taku : 17:45 | トラックバック

2005年02月09日

平林さんの blog

estraier の作者の blog を発見。

索引語を作るとき、 n-gram か分かち書きの選択で
悩んでるみたい。

次回の言語処理学会では、この2つの方法論を unify する話をします。
実数のパラメータがあって、形態素解析の分かち書きと n-gram
(実際には文字unigram という実装になってますが、理論的には任意の
n-gram　に拡張可能) の結果を自在にコントロールできます。
さらに、MeCab にその機能がつく予定。

大人の事情があって、論文とMeCabの公開は
言語処理学会の後になります。

投稿者 taku : 20:50 | コメント (1) | トラックバック

サイエンス zero

kaoru-ya氏の日記で紹介されていたので、
今日の再放送を見てみました。

東大のT岡さん評価関数についてのコメントで出演してますた。

面白かったことを適当にならべてみると

- 対戦の序盤は、おおまかな戦略をたて、それに向けての準備をする必要があり、
コンピュータは不得意。名人の過去のデータを定石として使うため、
序盤はものすごい勢いで勝負が進む
- 終盤は終盤で、先の読みあい。詰めれると分かると
これまたものすごい勢いで勝負が進む
- 評価関数は heuristics の塊みたい。うげー
- 過去の名人の手を元に、ルール（決定木みたい？）を
作る研究もあるようだ
- 肝は、枝狩りだそうだ。いかに問題の本質を見極め
いらないものを捨てるか。これはまだコンピュータには難しいみたい。
- 自分の形勢に応じて戦略を変更するといったことはまだできない。
形勢不利だと、思い切った勝負に出たり、形勢有利だとコツコツいくとか。

あと、高専のプログラミングコンテストの内容も面白かった
「記憶のかけら」という課題で、簡単に言うと
ジグソーパズルを解けという課題。
ｵﾚならどう解くかなぁ。となりの画像との連続性を表現した
ポテンシャル関数をビリーフプロパゲーション＋焼きなましを使って
大局的にとくかな。遅いような気がするけど。

それにしても、真鍋かをりは表現するのは難しいですが、
独特の賢さをかもし出していてイイです。

投稿者 taku : 05:10 | トラックバック

WBSでアフリエイト特集

ワールドビジネスサテライトでアフリエィトが
フィーチャーされていますた。

「究極の広告として注目を浴びている
アフリエイトの実態に迫る！」みたいな内容。
主婦のカリスマアフリエイターが子育てしながら
月収20万だって。いいなぁ。

小谷さんが、「商品を紹介して問題が
発生した場合は、売り側と買う側間での折衝になって、
紹介した人には何の責任もない。それは解せないなぁ」
とおっしゃっていました。こういう問題はいまのところ
ないのでしょうかね？でもよく考えてみると知らない人の blog から
物を買うことはすくないですね。あの人だから... って場合が多い

そいや、岩崎恭子の3点セット、水泳本、写真集、DVD
が売れていました。某A氏のお買い上げだそうです。
私だから... なのですね！ありがとう。

投稿者 taku : 04:55 | トラックバック

2005年02月08日

言語処理学会原稿

昨日のうちに無事出せますた。

今年度の論文執筆は終了と思われる。なんやかんやで
今年度は論文書きまくって (国際学会3, ジャーナル1, 研究会等3)
研究はあまりできなんだ。

今回の言語処理学会の仕事は、これからの発展が面白そうなので、
もうちっといろいろ実験して、ジャーナル投稿しときたい。

MeCab の公開作業がますます遅れてしまう罠。

投稿者 taku : 23:01 | トラックバック

2005年02月07日

代返防止システム

http://www.asahi.com/tech/asahinews/TKY200502050264.html

母校の大学は、そもそも出席とらなかったので、
代返の習慣はなかったですね～

独学で身に着けた能力、能動的に聞いた授業内容は、
なかなか忘れないし、将来に渡って役に立つだろう。
代返防止にしろなんにしろ、受動的に、強制的に参加させられた
内容はすぐ忘れる。

能動的に参加してもらうような授業内容にすればいいと
といった奇麗事を言うのは簡単だが、
最近の学生は「忙しい」からそんなこと言ってられないだろうな。

授業が面白いと感じたり、独学で何か習得しようとする
チャンスが薄くなってきたのだろうか。情報が氾濫しすぎて
1つのことをじっくり考えなくてもよくなったのは事実だ

投稿者 taku : 20:36 | コメント (1) | トラックバック

岩崎恭子のゆっくりきれいに平泳ぎ

投稿者 taku : 20:16 | コメント (1) | トラックバック

2005年02月06日

固有表現抽出

http://pcweb.mycom.co.jp/news/2004/10/26/001.html

goo の次世代検索サービスで
固有表現抽出を使ってるみたいだ。

カテゴリ分類に関しては、たとえば固有名詞には「渋谷」など地名と人名の両方の可能性がある言葉があるが、同社によれば文脈を判断して分類をするようだ。続いて並ぶ助詞の情報や周辺に並ぶ単語などで総合的に判断するようで、このようなトピックを提供する検索エンジンを搭載したポータルサイトは同社によれば世界初だという。

投稿者 taku : 23:46 | トラックバック