ラジラジ言っている北海道の心理学者PsycheRadio氏と話をしていたときに、「心理学で(他の学問でも)統計的検定や推測統計学への批判が高まって以前ほど使われなくなりつつある」と言われたが、違和感がある。少なくとも社会科学分野で使われなくなったとは聞かない。話の流れにあわせて誤魔化されている気がするので確認してみた。
1. 確かに統計的仮説検定は非難されている
PsycheRadio氏が全く無根拠な話をしているわけではない。統計的仮説検定によって、胡散臭い統計手法で有意性を捻り出してしまうこと(p-hacking)などが問題になっており、また統計モデルと研究上の仮説の相違を理解しない運用もある。アメリカ統計学会(ASA)が統計的仮説検定に対する注意を喚起する声明を出したぐらいだ。実際に、統計的仮説検定を禁止された雑誌もある。氏が例に挙げたBasic and Applied Social Psychology誌は2015年にP値の利用を禁止し、Political Analysis誌は2018年1月にP値を表示しないと宣言した。
2. P値廃止雑誌のその後の統計手法
ここで多くの統計ユーザーは、統計的仮説検定を使わない代わりに、どうやってデータで白黒をつければ良いのか疑問に思うであろう。PsycheRadio氏は、統計的仮説検定だけではなく推測統計学も使われなくなりつつあると言っている。論より証拠。BASP誌に2016年以降に掲載された論文*1と、Political Analysis誌に2018年に掲載された論文*2の図表をあさってみた。
Political Analysis誌の方は、ざっと見たところだが、P値は載っていない。ただし、信頼区間は計算されており、エラーバー付きのグラフが載っており、エラーバーの上下が共に0より大/小だと、色を変えて統計的有意性をアピールをしていたりする。信頼区間の計算方法を思い出してくれれば分かるが、上限と下限がそれぞれt検定で棄却できる値になる。統計的仮説検定を実質代用してしまっているわけだ。αを設定しているのであって、P値は見ていないとは行かない。なお、この統計的仮説検定を明示するのを避けて信頼区間を並べる方法は、解釈の誤りを招く可能性がある*3。
BASP誌の方は、2016年の論文にP値が堂々と記載されていたが、2017年の論文では使われていなかった。統計的仮説検定から解脱できた事例と見なして良いであろう。統計量としては、平均値と標準偏差(SD)、Cohenのd、η2もしくはηp2が使われている。Cohenのdは副標本と副標本の差を標本標準偏差で割ったもので、偏差値に近い指標。η2はある説明変数の効果の平方和を被説明変数の平方和で割ったもので、決定係数に近い指標だ。ηp2は重回帰のために、分母が{説明変数の効果の平方和+残差項の平方和}に代わっている。標本サイズで変化するP値はもちろん、標準誤差や信頼区間は計算されていない。
3. 統計的仮説検定が有用なケースも残る
大標本を扱っているとすれば、Cohenのdやη2やηp2は概ねよく機能する。統計的仮説検定のための統計量、例えばt値は効果量/標準誤差で定義されるので、効果量がゼロでなければ標本サイズが大きくなると有意性が出る。逆に言うと大標本で有意性があったといっても、効果量は極小と言う事もありえる。何千万人と言うコホートを作れば、余命が1日伸びるような実用上意味の無い効果量の健康法にも統計的有意性を持たすことができるかも知れないが、Cohenのdやη2やηp2は排除できる。
一方で、抜き取り検査や治験などで標本サイズが大きく取れないものでは、Cohenのdとη2だけでは偶然大きく計測された効果量に惑わされやすい。この世には標本サイズが5(処置群4 対称群1)で平均値と標準偏差しか書かれていないのに出版されている論文もあり、Cohenのdを計算すると0.25とそれらしい数字になってしまう。Cohenのdの95%信頼区間を計算し、分散分析を用いてη2を検定する方が望ましくなり、ネイマン=ピアソン流の統計的仮説検定の世界に戻る。また、Cohenのdやη2やηp2では小さい値になるが、人命に関わることなどで社会的、経済的に評価すると大きくなるものも、重力波のように、効果量が小さくても学問的な意義が大きいものもある。説明変数の分散により左右されるので、説明変数が似た標本を作ると効果量を見落としやすい。努力家の集団で、努力の効果を測定することなどは無理になる*5。
4. まとめと感想
p-hacking対策としては、差読者が統計的仮説検定を正しく運用できているかチェックし、効果量の大小も評価するように執筆者に勧めれば済むのだが*4、なぜか統計的仮説検定を禁止して、効果量の大小の表記のみを許すと言う話になっている。
標本サイズを大きくすることで有意性をひねり出す研究はそんなに無いと思うのだが*6、この目の敵ぶりは興味深い。他のよくあるp-hackingの方法、チャンピオンデータ問題は、Cohenのdやη2やηp2を使っても残ると言うか、むしろ標本サイズを評価しないことで悪化する可能性すらある。
ところで、現時点で実質的に統計的仮説検定を排除できていそうなのはBASP誌だけで、他に追随している雑誌は多く無さそうである。「以前ほど」の程度次第だが、「以前ほど使われなくなりつつある」と言うのは、PsycheRadio氏の勇み足であろう。
*1Pashler et al. (2016), Rosas et al. (2017) [PMC], Blankert and Hamstra (2016) [PMC]
*2Horiuchi, Smith and Yamamoto (2018) [SSRN]
*3多重比較をする研究は多いわけだが、単純に描画したエラーバーが並んだグラフを見た目で議論するわけにはいかない。「ダメな統計学」の第6章に説明があるのだが、標準偏差、標準誤差、信頼区間のエラーバーの重なりの有無は統計的に有意な差を意味しない。並べてあっても、確率を背景において違いがあるか否かを言えない。P値の代わりにエラーバーを用いる場合、見た目と統計的仮説検定の結果が合致するように修正する必要があり、例えばガブリエル比較区間(Gabriel (1978))を用いる必要がある。しかし、流行っていないので分析に使えるツールが限られる。Rの場合rgabrielパッケージのrgabriel関数に値と属性を示すfactorのベクトルと棄却域(つまり、統計的に有意と見なすP値の閾値)を与えると、平均値から±すべき値を計算してくれる。gabriel.plotは、ちょっと扱いづらかった。
*4帰無仮説の棄却域を一桁小さくするのも有効だが、観測数が多くとれない分野では論文を書けなくなるかも知れない。書かなくて良いのかも知れないが。また、実験回数や被験者数を増やす必要が出てくるので、資金力がある研究者が有利になる。
*5もちろん標本サイズが小さければ、統計的有意性を得ることも難しく、可能ならば標本自体を改善する方が望ましい。
*6標本サイズを大きくすると観測される効果量は平均回帰していくので、間違って効果が観測される確率は減っていく。
0 コメント:
コメントを投稿