mots quotidiens. | |
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp | by hns, version 2.10-pl1. |
|
||||||||||||||||||||||||||||||||||||||||||||||
増井さんの
インターフェイスの街角
を読んでずっと以前から気になっていた, QRコードに本来代わるような
Xerox PARCで開発されたデータの画像化法 "DataGlyph" を, 夜中にふと思い立って
C言語でエンコーダとデコーダを簡単に実装してみました。
% glyph ファイル でファイルをエンコードし, % unglyph ファイル
でエンコードされた文字列(改行は任意)をもとの内容に戻します。
EUC専用なので, 端末をEUCモードにしてから実行して下さい。
glyph.c
unglyph.c
やっていることは"ロリロリ変換"と基本的に同じで, データの1/0をそのまま表示
しているだけです。
DataGlyphは, データを何気なく印刷物に潜ませる洗練された方法だなぁ, ということに
感銘を受けていて,
Xeroxのページ
にも説明のPDFがあります。
より詳しくは
こちらのページ
にあり,
とにかく1/0を機械が判別さえできればよいので, 線の太さを変えたり,
色を変えたりすることで, ごく普通の写真や印刷物にも全くわからないようにデータを潜ませる
ことができる技術で, 本当に凄いと思います。
ただこれが広まらず, QRコードのようなあまり美しくない方法が広まっているのは,
QRコードの方が目のようなガイドがあって, ロバストだからでしょうか。
ただ, DataGlyphでも任意に読み取ったうち, どこから読めばデータなのかを自動的に
判定させることは技術的にはできる気がしますので, Xeroxの広報力の問題だったの
かもしれません。残念です。
とはいえ, いつかこの技術が使われないかなあ, と僕は思っています。
こういうコードを書いていると, それでは生のビットではなくてzlibで圧縮
したり, エラー訂正を含めたくなるので, 少なくとも学習用としては面白い課題ですね。
他にも, 2012年5月号は前半が湊先生や宇野さん, 河原さん等の離散構造の話だったり, 何気に佐藤君のトピックモデルの文献案内が載っているとか, 実は裏表紙がCS研の オープンハウス案内だったりとか, 学会誌としては稀にみる物凄い読み応えなので, *2 これだけ買っても充分元がとれる, という風に思ってしまうほどの内容でした。
分野違いの人に査読されたのならともかく, Information Retrieval と
Machine Learning にチェックを付けて(これはサブの仕事なので, 僕はIRを専門に
やっているわけではありません)出したのに, 11点平均精度を知りません, とか
何, みたいな。
知らなくても, 論文には Precision-recall の point summary だと
ちゃんと書いてあるし, その辺の情報検索の本を見ればどれでも載っていると思う。
本論に突っ込めないので実験についてコメントしてあるわけだけど, それも 行数を割いて誤解を生まないように議論しておいた点だった。 ICML とか NIPS を読み込んでいる人を想定して, 脚注や Discussion で色々と予防線を 張って議論しておいたのに, 全然役に立たなかった感じ。うーん。 もう, 何なの..。
原稿はこれです。 coling2004.pdf
EMNLPにも出しているので, そっちが通ればいいのだけど, 今年のEMNLPは倍くらい
(200件くらい)の投稿があったという話なので微妙。
といってもできることはみんなやったので, 僕としては他にどうすることも
できないわけだけど。
EMNLPは僕も査読を手伝っているのに, 自分の paper が落とされたらバカみたい
だけど, また何か難癖が付いて落とされる可能性もありそう。
この話はもうジャーナルも書いて出して, もう次の話をやっているので,
ここで引っかかりたくないんだけどな。。COLINGは予防線だと思っていたので, むぅ。
EMNLP 2004の原稿はこれ。
emnlp2004.pdf
タイトル一覧 |