2015年2月9日月曜日

疑似科学ニュースに必要な統計学の初歩的な知識

このエントリーをはてなブックマークに追加
Clip to Evernote
Pocket

疑似科学ニュースのメカAG氏がオレ流統計学を開拓されている。偽科学の信奉者は大抵は統計学に弱いので、メカAG氏がそうであっても意外では無いのだが、誤差は足せば足すほど目立たなくなる事は知っておくべきだと思う。メカAG氏は誤差が大きくて就業者数の差分の統計は意味が無いと主張しているのだが、初歩的なところで勘違いしている。

1. 統計学の答案的な議論

1991年から2014年の季節調整値の一階差分の絶対値は、標準偏差が約17約11となっている。平均値は約13なので、一つの月のデータであれば誤差の方がかなり大きい。しかし、比較しているのは24ヶ月分の平均だ。平均は変わらないが、標準偏差は約3.5約2.1まで減る。ある月が他の月の何倍も変化するのであれば、それを観測できる確率が高い。

追記(2015/02/16 10:29):絶対値の標準偏差と、そうでない標準偏差を取り違えていたので修正した。

2. 視覚的に理解してみよう

メカAG氏は学部で統計学を履修していなかったと思うので、直感的に理解できるようにシミュレーションしてみよう*1。毎月の変化は平均ゼロの正規分布に従うとして、4月の標準偏差が他の月の17の倍としよう。4月の変化幅が大きいとする。一年分で見ると、絶対値は以下のようになる。差が見えない。

メカAG氏が考えているのはこの状態であろう。しかし、こういう風に生成したデータを24回分足して、24で割ってみると誤差に埋もれていたものが見えてくる。

かなり4月の特徴が出てきた。24年分足した結果の平均が17ぐらいで標準偏差が3.8ぐらいだから、4月の値は3σ付近の位置にある。偏差値で言うと80ぐらいの異常値。大数の法則と呼ばれる性質。

集計前データが気になるかも知れないので、一応、グラフにしておく。メカAG氏が見ているデータと同じように見えるであろう。

3. 実際のデータを観察してみる

実際のデータは以下の通り。特定の月が他の月の何倍も変化しているようには見えない。階段モデルは支持されない。トレンド項が特定月に変化していないことも、同様に確率論にそって二階階差の統計*2から解釈できる。

いつもモデルを考えずに情緒的に話をしているメカAG氏には、こういう風に明確なモデルを置いた議論は苦手だと思うが、データを直感的に見るだけでは意味が無い。

4. 統計に依存する科学的方法

標準誤差を大きく超える効果量が得られるとき、統計的有意性があると言う。24でもかなり減るが、1万も2万が観測数あると標準誤差はかなり小さくなっている。統計哲学的には問題がある*3のだが、大量の観測数があるのに有意性が無いものは、慣習的に効果が無いと見なす。

ホメオパシーにしろ、低レベル放射線の被害にしろ、科学者はこういう基準で考えている人が多い。統計的有意性に偏重しすぎて科学研究に弊害も出ていたりするのだが、統計的有意性がないとお話にならないのが昨今の風潮。工学分野の人は、あまり統計学を使わなかったりするが。

追記(2015/02/09 18:20):メカAG氏は集計前データのグラフもしっかり描けないようなので、季節調整値の差分の推移も上げておく。

上のグラフの傾向と反して、メカAG氏は一階階差が連続して同じ方向に変化すると主張しているのだが、その場合は(1)そもそも階段状ではないし、(2)それでも特定月に変化量が大きいのであれば統計に出るので、まったく批判になっていない。数理的にモデルを考えられないのであろうか。

*1ソースコードは「特定月の分散が大きいときの大数の法則」を参照。

*2二階差分は、平均17.96、標準偏差13.97だった。

*3メカAG氏は、このブログで「効果が無いか、あっても小さいであろう」と表現している事が多いのに疑問を感じているようだったが、統計的仮説検定では哲学的に効果量ゼロを主張できないので、標準誤差に埋もれる程度の効果量しかないことを表現している。

1 コメント:

meco さんのコメント...

「俺のモデルは正しいが現実には現れない。」←この主張は絶対崩せません。いくらモデルに反した現実を突きつけても、彼のモデルは現実には現れないんですから笑

コメントを投稿