2016年3月9日水曜日

アメリカ統計学会「P値至上主義による統計的仮説検定を超えて行こう」

このエントリーをはてなブックマークに追加
Clip to Evernote
Pocket

最近は帰無仮説を棄却して対立仮説を採用する教科書的なP値至上主義による、何かを発見したと主張する論文だけが公刊される風潮はだいぶ弱まってきたのだが、何かがあると言う方が作文が楽なのか、まだまだP値至上主義は幅を利かせている。そして、このP値至上主義と言うかP値偏重主義にはかなりの弊害がある事が知られている*1

まず、論文の査読者が統計的手法に十分詳しくない人間だと、何かが何かに効果が無いと言う事実を切々と説明しても、P値が有意ではないと言うことで公表できない。何か無いと言うのも科学的に意味がある場合もある*2のだが、それが引き出し効果(file-drawer effect)と言って死蔵されてしまう。これどころか、業績がないと研究職では立ち行かなくなるので、胡散臭い統計手法で有意性を捻り出してしまうケースもある(p-hacking)。これで再現性の無い研究が増えて困っているのが現状だ。そもそも、データを入力すると計算機が計算してくれるためか、P値の意味さえ分かっていない研究者もいるぐらいだ。つまり、かなり無批判に、P値を参照している。実際、それぞれの分野で習慣的に受け入れられているP値の有意水準が批判される事は、まず無い。

こういう現状を憂えたのか、アメリカ統計学会(ASA)がちょっとした声明を出している。見ると、まず、P値によくある誤解と誤用に注意を与える以下の6原則を述べている。

  1. P値は、データと特定した統計モデル(←帰無仮説)がどれぐらい不適合かを表している。
  2. P値は、研究仮説が真である確率、もしくはデータが偶然だけによって生成された確率を計測するものでは無い。
  3. 科学的結論と、ビジネスもしくは政策上の決定は、P値が特定の閾値を通過したかだけに依存すべきではない。
  4. 適切な推論には、完全な(分析方法の)報告と透明性が必要である。
  5. P値もしくは統計的有意性は、効果の大きさもしくは結果の重要性を計測しない。
  6. P値自体は、モデルもしくは仮説に関しての良い根拠の評価基準(measure of evidence)を提供しない。

この上で、P値を用いる検定を補完もしくは代替として、信頼区間、信頼性区間、予測区間の推定に重点を置いたり、ベイズ法を用いたり、尤度比もしくはベイズ因子のような代替となる根拠の評価基準を用いたり、決定理論やFDRを用いる事を推奨している。

新しい分析手法を紹介しても、訳も分からず乱用しだす輩が出てくるだけな気もしなくもないが、信頼区間などは初歩的な統計学でも教える内容だし使っていくのは悪くない*3。もちろん、目的によっては、もっと複雑なものを使うと劇的に議論がしやすくなる場合もある。他人の研究で上手く使っているものを見たら「うぉぉぉ」と真似したくなるので、アンテナを広く張っておけば良いと思うが。

ところでこの声明を「p値や有意性に拘り過ぎるな」と言うフレーズを入れたタイトルのエントリーで紹介していたブログがあったのだが、これだと統計的手法を疎かにしても良いと勝手に誤解する人々がいるので、この表現はよろしくない。ASAの声明は、むしろ「盲目的にではなく、拘りをもって適切に使え」と言うメッセージのように思える。

*1関連記事:P値が有意になるように頑張りすぎちゃっていませんか?

*2後にアインシュタインの相対性理論につながるマイケルソン・モーリーの実験の結果は、頑張って計測を試みたエーテルの影響が無いと言うものであった。なおエーテルとは、当時、光が伝播するために必要だと思われていた媒質で、この実験により存在を否定された。

*3もちろん区間推定も、解釈に注意を要するときがある。「ダメな統計学」の第6章を参照。

0 コメント:

コメントを投稿