Natureに統計学的検定の問題についてのエッセイが出ていた。フィッシャー、ネイマン、ピアソンの言い争いの紹介も含めて、P値にまつわる議論を短くまとめている。何でも、この世には統計学的に有意であるのに再現性の無い調査や研究は多々あるのだが、統計学的な検定を盲信してしまい考察が疎かになっているせいだそうだ。
P値を扱うときの問題が三つ上げられている。一つは、偽陽性の可能性がP値から連想する以上に高いことだそうだ。統計学的な厳密な議論は説明されていなかったが、例えば帰無仮説が0.5のときに、P値が0.01で有意になったとしても、再現実験では11%以上の確率で再現が得られないそうだ。一つは統計的有意であることに満足して、その効果の大きさを考察しないことがあるそうだ。一つは、P値が有意になるように分析方法を工夫しすぎてしまうケース(P-hacking)があるそうだ。
エッセイでは探索的研究と検証的研究を分けるべきなど解決方法も提示されているのだが、統計的有意性が無いと論文が受理されない学術論文の実態を考えるとP-hackingを防ぐのは難しそうだ*1。そもそも偽陰性を最小化するように統計学的検定が選択されるので偽陽性は覚悟の上のことだし、エッセイでは政治的思想傾向と結婚満足度が問題のあるケースとして上げられていたが、社会調査系のデータセットは現実として調査地域や調査時期のバイアスを完全に防ぐことはできない。この問題に銀の弾は存在しないであろう。
個別の研究では理論的な説明が上手くできるかを見るぐらいしか対応策はないが、これを徹底しすぎると理論を越えた新発見を排除してしまうので、やはり科学として問題がある。結局は最先端で問題研究が増えるのは覚悟するしかなく、あとは追試や他の研究で再現性が見られるかで定説を作っていくしか無さそうだ。なお、勘違いする人が出そうだから言及しておくと、P値が高く有意性の無い仮説は完全に蚊帳の外なので、偽科学が擁護されているわけではないからご注意を。
0 コメント:
コメントを投稿