2019年7月6日土曜日

山岡重行の統計的仮説検定の説明に対する北田暁大の批判について

このエントリーをはてなブックマークに追加
Pocket

社会心理学者の山岡重行氏の『腐女子の心理学2』の巻末の統計学用語の説明に関して、社会学者の北田暁大氏が色々と批判している*1。しかし、あれこれ経緯がある*2からだと思うが、全般的に勇み足になっているので指摘しておきたい。山岡氏の記述にも問題が無いとは言い切れないのだが、統計学を学んでいない人向けの説明であろうことを念頭に置くと、山岡氏が統計学に無理解であるかのような批判は適切ではないと思われる。

1. P値の解釈について

北田氏は、山岡氏のように統計的仮説検定で「事実認定」をすることは、アメリカ統計学会(ASA)の声明*3に合致しないと主張しているのだが、何を「事実認定」するのかについて注意が払われていない不適切な批判になっている。

山岡氏の説明では、分類したグループ間の平均値に差があるのか「事実認定」するために、統計的仮説検定を用いることになっている(pp.72–73)。つまり、データと特定した統計モデル(←グループ間の平均値に差が無いという帰無仮説)がどれぐらい不適合かをP値で測っているだけである。ごく一般的な利用法かつ、ASAの声明の第1項で「(拙訳)P値は、データと特定した統計モデルがどれぐらい不適合かを表している」とあるが、統計モデルが帰無仮説であることに注意すると、この説明の通りの用い方である。P値が統計モデルにも依存し、単純比較で腐女子と非腐女子に有意性な差があっても、家柄など他のコントロール変数を加えたら、もしくは群をもっと細かく分けたら有意性が無くなるかもよ? — と言うような話は出てくるのだが、この節の山岡氏の説明は、統計的仮説検定で帰無仮説を棄却してからでないと統計的に差があると言ってはいけないと説明をしているだけなので、該当しない。

北田氏は、山岡氏の説明がASAの声明の第2項の「P値は、研究仮説が真である確率、もしくはデータが偶然だけによって生成された確率を計測するものでは無い」と相反する『「ある結果が偶然生じる可能性」が「有意水準」(p値のことか?)であるという説明は、よくある誤解』と主張しているが、誤解があるかは定かではない。帰無仮説が正しいことを前提に、(ここでは観測値の平均値の差になる)推定量以上/以下の値が偶然生じる確率がP値になるとは言える。帰無仮説が正しくない場合にはデータが偶然によって得られた確率とは言えなくなるが、この節の山岡氏の説明は、統計的仮説検定で帰無仮説を棄却してからでないと統計的に差があると言ってはいけないと説明をしているだけなので、帰無仮説が正しいことを前提にした上での議論だと想像できる。

2. 大数の法則

山岡氏の「データ数が大きくなればなるほど、大数の法則により理論的確率と統計的確率が近づき、誤差ではなく有意差が出現しやすくなる。人間の場合は、人数が増えるほど誤差を生み出す様々な要因が相殺されて、平均値に対する影響力を失っていくのである」と言う説明は、確かによろしくない。

まず、前後の説明を見ても、母分布に標本分布が収束することを大数の法則としているのだが、大数の弱法則の数式表現と対応しない。標本平均は母分布の期待値に収束すると書くほうがよいであろう。ただし、大数の弱法則から(二項分布以外の分布でも)分布収束することは容易に証明できる*4ので、間違いと言えるほどではない。

次に、同じ推定量でも有意性が出やすくなるのは、大数の法則からいえることではなく、分散の性質から言えることなので、この書き方では誤解を招く。分散の性質とチェビシェフの不等式から大数の弱法則が導出できるので、似たような議論の中ではあるが。

なお、北田氏が批判している「人数」は、観測数の本書の議論に沿った言い換えだと許容できる範囲だと思う。また、記述自体はよろしく無いのだが、標本サイズに対する標本平均と標本分散の性質を説明した上で、t統計量のつくりからt値やP値がどのようになるか説明するのも大変かも知れない。

3. 標本サイズ設計

「山岡(2016)や山岡(2019)は、標本サイズ設計などはまったく行っていない」とあるのだが、P値を一定以下にするために事後的に標本サイズを拡大をしたりしない限り、実用上の問題は無い。標本サイズが小さいと、t値の分母に入る標準誤差が大きくなってしまうので、P値も大きくなってしまう。そして実際、(後述するが)山岡氏のような統計解析が一般的である。

帰無仮説を棄却できないときは帰無仮説を採用するような研究デザインになっていて、統計的有意性が無いので腐女子は他と変わらないというような話であれば十分な検定力があるかを検討した方が厳密でよいが*5、効果量も大きくないことを確認して差が無いと見なす場合もある(e.g. 同等性試験)ので、必ずそのようにしないといけないとも言えない。

4. 5%有意について

これは山岡氏の記述が極端すぎる。社会科学分野では1%,5%,10%で見ていることが多いし、分野によっては有意水準はもっと低い。5%有意は便宜的な基準値である。

5. 統計哲学的な議論について

北田氏は、山岡氏の説明をFisher流有意性検定とNeyman流仮説検定のどっちつかずのように批判しているのだが、現在広く運用されている手法はどっちつかずである。土居(2010)*6でハイブリッド仮説検定法として紹介しているが、有意水準を明確に定めるところはNeyman流である一方、第2種の過誤を制御するために標本サイズを決定することはされず、帰無仮説が棄却されないときは判断を保留するところがFisher流である。山岡氏の説明はハイブリッド仮説検定法に準拠しており、この点を批判するならば山岡氏ではなく、統計学ユーザーほとんどが対象となる。

6. まとめ

本文における山岡氏の計量分析が適切かは確認していないので分からないし、山岡氏の説明はもう少し厳密である方がよいと思うし、統計的有意性が無いものを差があると書いてしまっても(信じるに値しなくても)捏造とは言えないと思うが、今回の北田氏の山岡氏への統計学に関する部分の批判はもう少し思いやりの原理を働かせるべきであったと思う。

また、アメリカ統計学会(ASA)の声明は、分かる人しか分からない書き方になっているところもあるので、あれだけ見てあれこれ他者の統計解析を論評するのはやめるべき。むしろ、他の文献を参照するにしろ、文章部分からだけで理解しようとするのはやめるべき。大数の法則にしろ、P値(と言うかt分布やt値)にしろ、数式を確認し、数式を導出して理解するようにして欲しい。統計哲学の議論、一定の作業をこなした読者が前提になっている可能性は高い。お気軽確率・統計ユーザーのための必須数学知識チェックリストを作っておいたので、まずはその辺からお勧めしたい。暁大っちもこちらの世界へおいで(;´Д`)ハァハァ

*1山岡重行聖徳大学講師の拙稿への「批判」と統計学理解の問題及び研究教育倫理の重篤な問題について①|北田暁大|note

*2山岡重行先生の北田暁大(2017)「動物たちの楽園と妄想の共同体」批判 - Togetter

*3関連記事:アメリカ統計学会「P値至上主義による統計的仮説検定を超えて行こう」

*4ある任意の値a未満で0、a以上で1をとる指示関数の平均値は、a以上の確率に一致する。大数の法則から標本の指示関数の平均値は、母集団の指示関数の平均値に確率収束するから、標本分布のa以上の確率は母集団のa以上の確率に確率収束し、ここでaは任意の値なので標本分布全体が母集団分布に確率収束することが分かる。たぶんヽ(´ー`)ノ

*5ネイソン=ピアソン流の仮説検定では検定仮説(帰無仮説)が棄却されないときには検定仮説を採用するが、誤って検定仮説を棄却しない第2種の過誤確率(=1-検出力)も評価する。なお、山岡氏は「各群の人数、平均値、標準偏差を明記してある」そうなので、批判に必要であれば検出力は批判者で計算するべきであろう。

*6土居 (2010)「帰納的推論ツールとしての統計的仮説検定 : 有意性検定論争と統計改革」年報人間関係学,13号,pp.15—36

2 コメント:

北田暁大 さんのコメント...

ありがとうございます。勇み足というか勢いで書いたものなのでいただいたご教示を踏まえながら随時書き直してまいります。ただ、補足にも書いたのですが、「統計的仮説検定で帰無仮説を棄却してからでないと統計的に差があると言ってはいけない」は、山岡氏の「有意差があるというのは有意水準5%未満の場合である」「有意性検定は「事実認定」のために行う」(大意)が、有意水準の規約性(分析者の設計)をどのように捉えているか、きわめて不分明なものであり、本当に「統計的仮説検定で帰無仮説を棄却してからでないと統計的に差があると言ってはいけない」という穏当な主張に収まるものかは疑問ではあります。いずれにしても、以後はさらに遂行した形での「連載」としてまいりたいと思います。

北田暁大 さんのコメント...

またこ「山岡氏の説明はハイブリッド仮説検定法に準拠しており」という点については実際に山岡氏の著作の記述をご覧いただくのがよいと思います。そうした熟慮を踏まえての記述かどうか、私は疑問に思います。

コメントを投稿