時系列データの相関係数はあてにならない

2013年6月9日日曜日

元官僚の高橋洋一氏が時系列データの相関係数が高い事を論拠にしているが、この論証方法は全くもって厳密ではない。

計量経済学では時系列データの相関係数はあてにならない事は80年代から良く知られており、これに関連した業績でエングルとグレンジャーは、2003年にノーベル経済学賞を受賞している。

高橋氏のトリックを説明したい。世の中には時間とともに変化していくトレンド^*1と言うのが多くある。このトレンドがあるデータを二つ比較すると、どちらも時間に対して相関しているため、相関があるように見えてしまう。

例えば戦後、一人あたりの米の消費量は減少し、コンピューターの普及台数は飛躍的に伸びたが、この二つの現象を結びつけて考える人はいない。しかし、米の消費量とコンピューターの普及台数は、高い相関を持つ事になる。

実データの場合は屁理屈をつける事も可能かも知れないので、シミュレーションして確かめてみよう。

上図はy=2t+εとy=100-t+νをプロットしたものだ。εとνは独立な誤差項。2tと-tがトレンドになる。実線と破線のグラフはそれぞれtと関係があるが、実線と破線の間に意味のある関係は無い。

相関係数を見てみると下図のようになる。

独立した確率分布に従うのに、相関係数-0.915と高い相関を表している。これは、2tと-tのトレンドの相関を見てしまっているためだ。つまり、見せ掛けの相関が高い。

トレンドが無ければ、例えば上昇局面と下降局面があるデータで相関係数が高ければ、二つのデータに意味のある相関関係がある可能性もあるが^*2、上の例のようなトレンドの影響が大きいデータの場合は、特殊な統計処理^*3が必要になる。

計量経済学などに詳しくない人に厳密な議論を展開するのは難しいのは分かるのだが、注釈なしで乱暴な図表を出されると困る。統計用語を出すと、厳密な話だと早合点する人も少なく無いのだ。フォントの大きさは9ポイントぐらいで構わないので、どこかに厳密な議論ではないことを明記する事をお願いしたい。

*1厳密にはドリフト項と表現する方が望ましいかも知れない。

*2単位根がない定常過程であることが前提になる。

*3時系列分析としては単位根が無くなるまで階差をとってVAR/VECMをかけるのが定番だ。

ニュースの社会科学的な裏側