mots quotidiens.

増井さんのインターフェイスの街角を読んでずっと以前から気になっていた, QRコードに本来代わるような Xerox PARCで開発されたデータの画像化法 "DataGlyph" を, 夜中にふと思い立って C言語でエンコーダとデコーダを簡単に実装してみました。
% glyph ファイルでファイルをエンコードし, % unglyph ファイルでエンコードされた文字列(改行は任意)をもとの内容に戻します。 EUC専用なので, 端末をEUCモードにしてから実行して下さい。
glyph.c unglyph.c

やっていることは"ロリロリ変換"と基本的に同じで, データの1/0をそのまま表示しているだけです。
DataGlyphは, データを何気なく印刷物に潜ませる洗練された方法だなぁ, ということに感銘を受けていて, Xeroxのページにも説明のPDFがあります。より詳しくはこちらのページにあり, とにかく1/0を機械が判別さえできればよいので, 線の太さを変えたり, 色を変えたりすることで, ごく普通の写真や印刷物にも全くわからないようにデータを潜ませることができる技術で, 本当に凄いと思います。

ただこれが広まらず, QRコードのようなあまり美しくない方法が広まっているのは, QRコードの方が目のようなガイドがあって, ロバストだからでしょうか。ただ, DataGlyphでも任意に読み取ったうち, どこから読めばデータなのかを自動的に判定させることは技術的にはできる気がしますので, Xeroxの広報力の問題だったのかもしれません。残念です。
とはいえ, いつかこの技術が使われないかなあ, と僕は思っています。こういうコードを書いていると, それでは生のビットではなくてzlibで圧縮したり, エラー訂正を含めたくなるので, 少なくとも学習用としては面白い課題ですね。

[n年日記]

人工知能学会誌

「ポスト経験主義の言語処理」が特集で載っている人工知能学会誌 2012年5月号が, いつの間にかポストに届いていた。
辻井先生, 僕, 宮尾さん, 渡辺さん, 戸次さん, 大熊・増市さん, 飯田君, 黒田さんの順で(僕はもう少し後ろかと思っていましたが), どれも非常に力の入った内容でビックリ。特に辻井先生の内容はかなり長くて非常に面白く, 凄まじい読み応えなので, 全体的にものすごくお薦めです。他の方はわりと, 自分の分野のテクニカルな内容を詳しく書いていて, 僕も自分の内容をもっとガッチリ書けばよかったと少し反省。
なお, 辻井先生の流石の内容の中で, 経験主義では見えない構造を考慮しないように見えますが, ベイズの人がやっているのは, まさにそうした見えない構造を学習しようというもので, 単に見える素性で *1 分類するような経験主義とは違っているかと思います。ただその時に, 闇雲に単純な事前分布を仮定するのではなく, 言語的に意味のある分布を仮定するべき, という点が, 本当は合理主義から導かれるべきではないかと感じました。

他にも, 2012年5月号は前半が湊先生や宇野さん, 河原さん等の離散構造の話だったり, 何気に佐藤君のトピックモデルの文献案内が載っているとか, 実は裏表紙がCS研のオープンハウス案内だったりとか, 学会誌としては稀にみる物凄い読み応えなので, *2 これだけ買っても充分元がとれる, という風に思ってしまうほどの内容でした。

: 最近は Conditional Neural Fields のような話もあるので, 分類といえども, 見える素性だけで行うものではなくなっていると思います。
: 人工知能学会の会員ではないのに, 書かれている人のほとんどが知り合いでした。

[n年日記]

COLING 2004

夜中にやることが終わって帰る前に, COLING 2004の結果通知が来た。松本先生が「COLINGは確実に通るでしょう」と言っていたので安心していたら, not acccepted。…はぁ? と思いながら開けてみると..
2人とも, 「数学がわからないので評価できません」とのこと。何それ (´д`;)。
数学といっても, Lebanon (2003) みたいに微分幾何を使いまくっているとかならともかく, 高々ラグランジュ乗数法を使っているだけで, わからないなんて許されないと思う。 NAACL(この時は日本語でしか実験していなかったので, ボーダーになって落とされた) の査読者は "Proof is elegant." と言って証明のタイプミスまで指摘してくれたのに, 対照的。

分野違いの人に査読されたのならともかく, Information Retrieval と Machine Learning にチェックを付けて(これはサブの仕事なので, 僕はIRを専門にやっているわけではありません)出したのに, 11点平均精度を知りません, とか何, みたいな。
知らなくても, 論文には Precision-recall の point summary だとちゃんと書いてあるし, その辺の情報検索の本を見ればどれでも載っていると思う。

本論に突っ込めないので実験についてコメントしてあるわけだけど, それも行数を割いて誤解を生まないように議論しておいた点だった。 ICML とか NIPS を読み込んでいる人を想定して, 脚注や Discussion で色々と予防線を張って議論しておいたのに, 全然役に立たなかった感じ。うーん。もう, 何なの..。

原稿はこれです。 coling2004.pdf

EMNLPにも出しているので, そっちが通ればいいのだけど, 今年のEMNLPは倍くらい (200件くらい)の投稿があったという話なので微妙。といってもできることはみんなやったので, 僕としては他にどうすることもできないわけだけど。
EMNLPは僕も査読を手伝っているのに, 自分の paper が落とされたらバカみたいだけど, また何か難癖が付いて落とされる可能性もありそう。
この話はもうジャーナルも書いて出して, もう次の話をやっているので, ここで引っかかりたくないんだけどな。。COLINGは予防線だと思っていたので, むぅ。
EMNLP 2004の原稿はこれ。 emnlp2004.pdf

-

こんなことがあったので, 会議の格はリゾート地で開催するとか(入り口を広くする)ということ以上に, 査読者の質が非常に影響するんじゃないか, と思った。たとえ落とす論文でも, 査読でいいコメントを付けることができれば, 著者と community 全体にとってよい影響があると思う。それだとまた次に同じ会議に出そう, という気になるのではないだろうか。

-

えーあー, イカリをぶちまけてしまいました (^^;)。
もちろん, less formal な話に場所を空けなさい, という意味だとは思っているんだけどね..。

2018年05月16日(水) [n年日記]

#1 DataGlyph

2012年05月16日(水) [n年日記]

#1 人工知能学会誌

2004年05月16日(日) [n年日記]

#1 COLING 2004

-

-

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.