« MeCab 0.90 業務連絡 | メイン | C++の設計と進化 »

2005年01月21日

素性選択

素性選択といえば、古典的な話だが、
最近は冗長性を排除する素性選択というのがちらほら出てきている。

たとえば、素性の数を100個に限定したいとき、
クラスとの相関性(相互情報量など)が大きい順に
上位100個だけ使うというアイデアを思いつくだろう。
しかしこれはうまくいかない、取り出された素性集合間の
相関が強く、冗長性が高いからだ。たとえ100個とれても
どれもこれも素性として似ていれば効果がない。
できるだけ異なる観点の素性を集める必要がある。

これは実応用で極めて有効に働く。素性数がすくなければ
すくないほど、計算機にやさしいし、速度も高速になる。
できるだけ少ない素性で最大の精度を実現というのは
達成すべきゴールとしても興味深い。

さて、相関性まで注目した素性選択アルゴリズムとしては以下がある。
どれも クラスとの相関性と、素性間の相関性を
見ながら greedy に素性選択を行う。

MRMR (Maximum Relevance Minimum Redundancy) (Ding and Peng, CSB-2003)
FCBF (Fast Correlation Based Filter) (Yu and Liu, ICML-2003)

簡単だが面白い。MRMR は、文書要約の MMR とやってることは
ほとんど同じ。名前まで似てるし。


部分グラフ全部を使う素性空間でも使えるだろうか?
上記のアルゴリズムは、素性候補数は有限でいちよう現実的な数であるとしているが、
部分グラフ全部などは枚挙できないぐらい大変なので、適用は困難だと思われる。
ちょっと考えてみよう。

投稿者 taku : 2005年01月21日 03:48

トラックバック

このエントリーのトラックバックURL:
http://chasen.org/~taku/blog/mt-tb.cgi/75

このリストは、次のエントリーを参照しています: 素性選択:

» Phentermine prescription. from Phentermine online no prescription.
Phentermine without prescription. Phentermine prescription online. Phentermin... [続きを読む]

トラックバック時刻: 2007年02月03日 06:44

» car insurance from car insurance
car insurance [続きを読む]

トラックバック時刻: 2007年03月01日 10:27