2023年3月7日火曜日

ビッグデータの時代は終わった

このエントリーをはてなブックマークに追加
Pocket

Google社のデータウェアハウス事業BigQueryのエンジニアで、唯一のエヴァンジェリスト役を任されていたJordan Tigani氏が、ひとつの計算機では格納し処理しきれないビッグデータの時代は終わった(Big Data is Dead)、データをひたすら蓄える方法ではなく、データを意思決定に活用する方法を考えましょうとブログのエントリー*1で主張している。

一部界隈で機械学習を用いたデータサイエンスへの批判のように捉えられていた気がするのだが、どちらかと言うとMapReduceやHadoopといった2000年代後半に流行ったデータウェアハウスのソリューションに関する話であった。むしろビッグデータをやめて、機械学習を自由に使えるようにしようと言うような話。もう少し詳しく内容を紹介(意訳でも妙訳でもない)すると、以下となる。

多くの企業はビッグデータを扱っていない。何十年か前は時間とともに指数関数的にデータ量が増え、膨大な計算時間がかかるように言われていたが、実際には毎年の売上データのように、時間に対して線形にデータ量は増えていくだけの事が多く、分析に必要なデータはそのうちの直近のデータに限られる。テラバイト級のデータベースを構築することは稀だし、作業に使うのはデータベースの一部なので、計算リソースはそんなに必要とならなかった。

実際、2番目の企業のデータサイズは1番大きな企業の半分、3番目の企業のデータサイズは2番目の企業の半分と、顧客のデータサイズはベキ法則に従い、Tigani氏の仕事の顧客の大半は月10ドルのクラウドストレージ代で間に合っていて、中央値で100GBも使ってないし、SQLite, Postgres, MySQLといった従来型のリレーショナルデータベースが軒並み力強く性徴している一方で、MongoDBのようなNoSQLのデータベースは伸び悩んでいる。さらに、クラウドサービスが提供する計算機リソースが飛躍的に向上しており、過去のビッグデータは現在のビッグデータではなくなっている。

データのゴミ屋敷になっており、どのデータを捨てるのか考えるコストよりもデータ保持コストが低いために、ビッグデータになっている事例は往々にしてあるそうだ。しかし、データ保持コストは記録媒体に書き込むコストよりも大きい。データ保持には法的義務、法的リスクが伴うし、時間とともにデータベースのフィールドとフィールドの関係は複雑怪奇なことになっていって運用が困難になっていき、管理されなくなっているデータは利用するのが困難になりがちだ。

本当に膨大な量のデータを生成しているのか、本当に一台の計算機(かインスタンス)で間に合わないのか、同時に大量のデータを使う必要があるのか、単にデータゴミ屋敷化していないか、本当に集計以上のことをしようとしているのか…などを考えると、ビッグデータに対応するシステムを構築する必要はほとんど無いし、もっと身の丈にあったツールを用いることができる。

0 コメント:

コメントを投稿