2012年1月9日月曜日

データマイニング・アルゴリズムのトレンド

このエントリーをはてなブックマークに追加
Pocket

HDDの大容量化と分散処理技術の発達でビッグデータの処理が容易になってきたので、ここ数年はデータマイニングが地味なブームになっている(NYT - For Today’s Graduate, Just One Word: Statistics)。2000年代前半のデータウェアハウスのブームではコンセプトだけが先走っていた(大園(2002))ので、随分と地に足がついた感じだ。しかし人気のアルゴリズムを見ている限りは、まだ十分にデータ分析がされているように思えない。

1. 10年間でソフトウェア的に進歩

地に足がついていると言うのは、ソフトウェア的に色々な面で進歩が見られたことだ。ビッグデータの利用が可能になった事から、応用事例が増えているように思える。

1. 分散処理技術の進歩によるビッグデータの利用
ハードウェア技術の進歩による高速化も著しいが、分散処理技術の進歩はビッグデータの利用を容易にしている。Yahoo!JapanでMapReduce型分散処理フレームワークであるHadoopを利用したところ、6時間かかった処理が5分に高速化された事は良く知られた事例だ(マイナビニュース)。実用的には一定時間以内に処理が終わる事は重要で、この部分の進化は大きい。
2. 非定型データ、テキスト・マイニングの普及
わかち書きからデータベース(インデックス)を作成するのは昔からある全文検索エンジンと同様だが、SNS等の普及で分析対象になるデータベースが拡大した他、利用されている単語の頻度などから流行を割り出すなど、応用事例が拡大している。
3. 統計処理の高度化
10年前のデータウェアハウスの事例では相関係数ぐらいしか見ていないように思えたのだが、最近は適応アルゴリズムも幅が広くなっているようだ(Wu et al.(2008) "Top 10 algorithms in data mining")。

しかし統計処理の高度化に関しては、後述するように方向性に偏りが無いわけでは無いようだ。

2. 分類アルゴリズムの比重が重い

限界と言うか、適用アルゴリズムには旧態依然とした面があるようだ。前述のWu et al.(2008)を見ていくと、統計分類アルゴリズムへの比重が重い。

決定木(C4.5、CART)、クラスタリング(k-means、k-近傍分類)、機械学習(SVM、AdaBoost)、単純ベイズ分類器がそれで、7割と言う事になる。最尤法のバリエーションとも言えるEMアルゴリズムもクラスタリングに用いられているため、統計分類アルゴリズムと数えるべきかも知れない。すると全体の8割がそれになる。残りの2つは頻出パターン抽出(Apriori)とグラフ理論(ページランク)で、オンライン・ショッピングのレコメンド機能や検索サービス等で使われているものだ。

現在のデータマイニングの大半は分類だと言って過言では無いかも知れない。画像認識なども分類アルゴリズムの応用だとも言えなくも無く、データを分類することで見えてくる事は多いが、統計解析としてはややいびつだ。

3. 計量分析の適用はこれから?

Wu et al.(2008)で分かる事は、回帰分析への比重が低い。機械学習の連載記事で回帰分析に触れられているため応用事例も多いとは思うのだが、回帰分析を駆使することで分かる事も多いので、これは奇妙な現象だ(関連ページ:だいこんで学ぶ計量経済学電気代の所得効果を経済学的に推定する)。

ロジット分析なども見かけるので重回帰分析が忘れ去られているわけでは無いと思うが、大半の応用事例では分類して満足してしまっているようだ。統計分類は発見的、回帰分析は仮説検定的な性格を持つのだが、仮説を設定する分だけ回帰分析の方が分析者のキャパシティを要求することになる。そういう意味では、分類するだけに満足せざるをえないのかも知れない。

4. データマイニングの限界

分類するにしろ、回帰分析するにしろ、利用するモデル(分析手法やデータ項目)の選択や結果の判断は人間が行っている。自動的に何かが出てくる事は無いし、実用上大きな意味のある結論を導きだすには、モデルを工夫する必要がある。取り扱えるデータやモデルが桁違いに増えているものの、計量分析におけるこの限界は何十年前と何も変化していない。

0 コメント:

コメントを投稿