「ビッグデータ」自体には意味がない - 『統計学が最強の学問である』

池田 信夫

統計学が最強の学問である統計学が最強の学問である [単行本(ソフトカバー)]
著者:西内 啓
出版:ダイヤモンド社
★★★★☆


ネットの世界には毎年バズワードが出て来て、去年から今年のそれはたぶん「ビッグデータ」だろう。その意味も知らないおじさんが、営業マンの「当社の**は超分散処理でビッグデータを100倍の速度で処理できまっせ」といったセールストークにつられて何億円もするシステムを入れてから、著者のところに「何に使えばいいんでしょうか?」ときいてくるそうだ。

著者は、データ量そのものには大した意味がないという。元のデータがいくらビッグでも、人間に理解できるデータ量はスモールなので、情報量をいかに圧縮するかがポイントだ。サンプル調査でも、正しくやればビッグデータとほとんど変わらない効果がある。10万のサンプルを1万増やしても、標準偏差は0.3%しか変わらない。問題はデータ量ではなく、「何を知るために調べるのか」という目的と仮説なのだ。

すべの統計分析は「複雑な現象の中に単純な(線形の)関係をさがす」という広い意味での回帰分析だから、わかるのは多くのデータの相関関係であり、因果関係については別の理論が必要だ。しかし今まではサンプル調査しかできなかった問題について、膨大な情報をコンピュータで処理することによって予想もしていなかった理論が出ることも多く、これからは統計学の黄金時代になるという。

ただし計量経済学との関係について、著者が「統計学は原データから帰納して法則を導き、計量経済学は理論から演繹する」というのは、100年ぐらい前のナイーブな論理実証主義である。ヒュームの問題として古くから知られているように、いくら多くのビッグデータを集めても、それだけで理論を帰納することはできない。その意味で、世界そのものが統計的に存在しているのである。