mots quotidiens.

Kernighan(!) の書いた, "A TROFF Tutorial" [ps] をほぼ全部読んでみた。
"August 4, 1978" とあるので, 何とほぼ30年前の文章(!!)だが, 面白い。

troff はKernighanが書いているように, タイプセットのアセンブラのようなものなのだと思う。 troff のコマンドは下のように, 必ず行頭の . から始まる小文字で, これをマクロ化したものが .TL や .NH のような大文字のマクロ。これは TeX と LaTeX の関係に似ているが, troffはよりミニマリズムに徹していて, .sp や .ft のようにコマンドが最小限なのが特徴。
実際, もし自分でタイプセットのプログラムを書け, と言われたら, まず確実にこういうコマンド体系を考えると思うので, それを完全なシステムにしているという意味でも貴重だと思う。 *1

実際に使えるかというと,

数式が入らないか, 少ない普通の文書には使える
複雑な数式や, 多数のフォントを必要とする文書には厳しい

というところ。例えば, Σ(α×β)²→∞を(全角文字に頼らずに)組版するには,

\(*S(\(*a\(mu\(*b)\u\s-22\s0\d \(-> \(if

と書く必要がありますが, わかりにくいのと, 現代で使うような複雑な式は恐らく不可能, という問題がありそうです。
またよく見ると, 時間が経っているだけあって, 普通の組版も微妙にTeXの方が綺麗な気がします。 *2
まとめると, 組版とはどういうことをするかを知るという意味で, 教養として知っておく価値はありそう, ということ。それより, Kernighanが書いた上の文書と同じ時期(1978年9月)のSIGNLの報告が平然と手書きだったりする(例えばこれ [pdf] ) ことを考えると, 30年前にこれだけの品質の印刷を, 研究所のUnix上では個人で可能だったことが奇跡的な気がします。
また, まず普通に考えそうなこういうシステムを踏まえた上で TeX や LaTeX があると考えると, TeX の綺麗でない仕様も, 仕方がないと思えてくるかも。
これで最後に残っていた, man のソースを見た時の .SH や .PP の謎が解けて, すっきりしました。
これはLispが理解できて, .emacs に含まれる cons や append を自由に使えるようになった時の感覚に似ているような気がします。

ソース: % groff -ms -Tps alice.rf > alice.ps

.ps 12
.DS C
.ps +2
.ft B
Alice in Wonderland
.ft
.sp 0.4
Lewis Carroll
.ps -2
.DE
.sp -2.5

.ps 12
.vs 13p

.in +0.6i
.ll -0.3i
.ti -0.4i

\v'1'\s36A\s0\v'-1'
lice was beginning to get very tired of sitting by her sister
on the bank, and of having nothing to do:  once or twice she had
peeped into the book her 
.in -0.4i
sister was reading, but it had no
pictures or conversations in it, `and what is the use of a book,'
thought Alice `without pictures or conversation?'
.sp
  So she was considering in her own mind (as well as she could,
...

: こういうシンプルな体系のもう一つの特徴として, (La)TeXと違って, awkやsed等による外部の自動処理が簡潔に書ける点があると思います。 TeXの場合は必ずしもコマンドが行頭に来るわけではなく, 形も自由なので, 一般に特別なパーサを書く必要がありそうです。
: 他にも troff の場合はTeXと違い, 明示的に fi などのリガチャを指定しないといけなかったりするようです。

[n年日記]

jroff(3) && 計算機古文書

さらに引っ張る。(というか, 裏で某翻訳が全然終わらないので, 一生懸命頑張っているわけですが..。)

家に帰って junet 時代のドキュメントを眺めていたら, 吉田茂樹さん *1 が書かれた「msマクロを使用した文書の書き方」という文書があるのを発見した。(1988年)
これは今探すと, http://ftp.riken.jp/pub/misc/Japan/JUNET-DB/troff/ などに置いてある模様。
この中から必要なファイルを取ってきて make を実行すると, ms.tut.ms が処理されて文書が得られます。結果を ps->pdf 化したものがこちら。 (pdf) これは日本語でmsの各種マクロの意味が解説されており, 特殊文字の一覧や必要になる troff コマンドの解説も含まれているので, troff についてはかなり役に立ちそうです。

言うまでもないですが, roff,tbl,eqn 等については "The Unix Super Text"(下)の48章に簡単な解説が含まれています。 *2
他に, me マクロパッケージについては, /usr/share/doc/groff-1.18.1/ の下に meintro.ms が置いてあって(私の環境の場合), % troff -me -Tps meintro.ms でタイプセットして読めるようです。me の方が, 現代のLaTeXの文書に近いような感じです。
また, メモ代わりですが, ベル研のテクニカルレポートのページ http://cm.bell-labs.com/cm/cs/cstr.html にも各種文書が集まっている模様。

上の junet の文書は前にはらださんに教えてもらったものですが, 僕もそれまで聞いたことがなかったし, かなり知られていないような気がします。「コアラ大将のTCP/IP入門」とか昔は有名だったらしいですが, 今も役に立つかは微妙。
「おヒマならMHを使ってよネ！」はこのへんに置いてありました。w

: 今は iamas におられるらしい。Unix Magazine Classic+DVD を買ったら, 所属に日本語で「国際情報科学芸術アカデミー」と書かれていて, 一体何だろうと思ってしまった。
: もちろん, ここで紹介した文書の方が詳しい。

圧縮

増井さんのmixi日記の「圧縮文法」のエントリを読んでワラタ。

言語モデルでは, 一般に文頭と文末に特殊な文字があると考えるので, 途中の文字の省略も含めて, 言語モデルでデコードしてやると高確率で元に戻せるのではないかと思う。(追加と違って本質的に情報が落ちているので, 確実な復元は無理ですが..。)
ずっと前に書いた似非中国語化ではないですが, 「常考」とか「感感俺俺」とか, 実際に省略が起きている例はあるかもしれない。
「石こは無か」って何だろう, と思っていたら, 突如「流石にこれは無理か」の省略だとわかった。人間恐るべし。(笑)

[n年日記]

数学セミナー11月号

無事に発売されました。めでたい。
2007年2月号の「統計科学のすすめその1」でも興味深い記事がいくつもありましたが, 今回はモデレータの伊庭さん Good Job で, (僕の記事は置いておいて) 全体にさらに内容が豊富で面白くなっていると思います。
「個性をとらえる」ことのできる統計モデルというのは一般にはあまり知られていないかもしれないですし, 多分僕も含めて研究者が読んでも色々得られるところがあるような気がします。
伊庭さんの巻頭言(特に最初と最後)はもとより, 田邉先生のメタな話, それから最後のブックガイドの所に写真が入っているのがいいですね。

僕の原稿は伊庭さんからいただいたタイトルはこの日記の通り, 「生きたことばをモデル化する」だったのですが, 最後に編集部の要望で「言葉」に直すように押し切られてしまって, 今でも激しく後悔。本文の冒頭も下の画像のように本当は全部「ことば」で, もっと読みやすく, イメージの湧きやすい表現でした。 *1
漢字になったことで, "言語に限定した話"という印象を与えなければいいのですが..。;

雑誌記事というと, 前に工藤君が月刊「言語」にcabochaの紹介を書いたのを思い出しますが, 同じ chasen.org でも, 書く雑誌といい, 内容の方向性といい, いい意味で対照的だなぁと思います。

: 「おわりに」の所だけ編集部の方で見逃したのか, 「ことば」という表現が残っています。

[n年日記]

帰京

つくば&東京出張から帰ってきました。
貞光君と共同研究の打ち合わせをしたり(頑張りましょう＞貞光君), 駒場で言語情報の中澤先生にルベソンでお昼をごちそうになって3時間以上お喋りしたり, と色々。
PRML 日本語本の担当部分(10章: 変分ベイズ法,EP)を出発直前にほぼ上げたので, これで8/11の SVM 2007 →統数研ワークショップ発表→数セミ原稿締め切り→PRML翻訳締め切りと4連コンボの締切りの連続からやっと解放されました。;

考えてみると, 去年のこの時期もNC研招待講演→CS研所長面接で大変だったので, そういう時期なのかもしれません。

TX(つくばエクスプレス)に乗るのは初めてだったのですが, 秋葉原の地下深くから45分でつくばに着き, 駅内部の雰囲気も東京と同じなので, あまり遠くまで来た気がしないのに驚きました。

体感的にはかなりの速度で(というか, 車内の音がうるさいというか), 最高速度は130km/hだそうですが, 所要時間は「たまたま」45分だったのではなく, 45分で行けるようにせよ, という至上命題があって, それに合わせて速度や路線等を調節したのではないか, と想像。
実際, 都心からの所要時間が45分から60分程度になるにつれて, その土地の価値がロジスティック曲線のように急速に減少するはずで, *1 このリミットを守るのは非常に大事だったのではないかと思う。

それより気になったのは, TXのイメージカラーが赤だということ。赤は車体だけでなく, 駅名のプレートの背景など各種表示に使われているのですが, イメージに合わないし, 気分的に疲れる色です。
北関東の原野を走る電車なのだから, 緑を全体のイメージカラーにして, 駅名などの背景は薄いグリーンにした方が絶対に合っているし, 上品で沿線のイメージも上がると思うのですが, どうして赤色にしたのか理解に苦しみます。
常磐線の緑と重なってもいいと思いますし, つくばエクスプレスの概要のページを見ても「環境共生鉄道」と謳っているのだから, それと最も遠い色である赤を選ぶというセンスはどうか, と。沿線の住民にとっては非常によく目にし, 人々の生活意識に大きく影響を与えることになる色だけに, 充分な考慮や説明もないまま選ばれているように見えるのは残念な感じがします。
ちなみに貞光君が教えてくれたTX音頭 (youtube) っていったい..(笑)。

: 「ロジスティック」という言葉の二つの意味を考えると, ちょっと言い得て妙かも。 "The Spatial Economy"にあるようなチューネン圏の概念からこれが導かれると面白いと思うのですが..。(見た感じ, 地価の微分が一定であるようにモデル化されているように見えますが, 気のせいかもしれない。)

[n年日記]

Lancelot James氏 (確率論の人。ノンパラメトリックベイズをきちんと勉強している人は絶対に知っていると思います)から, 自然言語との関係に興味を持ったので訪問してTalkをして下さい, とのメールが。マジですか..。
深い話を完全に理解しているとはまだ言えないので, ちょっと不安な面もあるのですが, 行けますと返事したので, 来年になると思いますが, HKUSTの統計教室に行ってTalkをする可能性がありそうです。

The Nested Dirichlet Process

つくばに行っている間の勉強会で山田さんが紹介した Nested Dirichlet Process (nDP)を, 帰ってから山田さんの資料(非公開)を読んで少し議論して, ようやく理解した。
nDPは簡単に言うと, 「HDPのbase measureが観測グループ毎に異なるもの」。HDPでは base measure G_0 自体がDPに従うが, このG_0は一回だけ

G_0 ~ DP(β,H)

とDPからサンプルされたもの。
これに対して, nDPではG_0自体が infinite mixture になっていて,

G_j ~ DP(β,H) (j = 1,..,∞)

を stick-breaking で混ぜ合わせた G_0 からGをサンプルする。イメージ的には, HDPで一つしかなかった共通の base measure をスペクトル分解してグループ毎のDPに分ける, というようなこと。 G ~ DP(α,G_0), G_0 ～ DP(β,H) なので, 合わせると G ~ DP(α,DP(β,H)) になり, Nested DPになる。ここではサンプルした各G毎に, 使ったbase measureの混合要素 G_j が決まり, Gを使ったDPのクラスタリングに加え, G自体がクラスタリングされることになる。

nDPは数ヶ月前に自分で読んだ時には, HDPとの違いが全然分からなかったのですが, これで理解できるようになった。
ていうかこれだけノンパラメトリックベイズをやってきても分からなかったなんて, テクニカルすぎだろ常識的に考えて‥(笑)。

2007年10月02日(火) [n年日記]

#1 jroff (2)

2007年10月07日(日) [n年日記]

#1 jroff(3) && 計算機古文書

#2 圧縮

2007年10月12日(金) [n年日記]

#1 数学セミナー11月号

2007年10月24日(水) [n年日記]

#1 帰京

#2 TX

2007年10月25日(木) [n年日記]

#1 -

#2 The Nested Dirichlet Process

mots quotidiens.
Daichi Mochihashi (持橋大地) daichi <at> ism.ac.jp	by hns, version 2.10-pl1.