仮説検定で統計的有意性が無かったときに、観測数を増やすことで統計的有意性を捏造できるからP値の利用は不正を招くような話をネット界隈で見かけることがあり、繰り返し強調している数学者もいるのだが、そんな事は現実ではまずされないので指摘したい*1。
実際に問題になっているのは、少ないサンプルサイズの実験で“偶然”異常値を引き当てたり、恣意的にサブサンプルだけを分析するchampion data problemの方だ。
1. 一定以上の標本サイズでは実行困難
本当は独立の母集団XとYの関係を推定することを考えよう。サンプルサイズnの母集団から取得した標本XₙとYₙの関係の統計的有意性は、nが大きくなればなるほど誤って観察される確率は減っていき、n→∞でゼロに収束する。いまどきの標本サイズ設計がされた研究では既にnは大きいため、nを増やして不正を行うのは困難だ。なお、頻度論は検出力を規準に、ベイズ統計学では損失函数もしくは効用関数を規定してサンプルサイズ設計を行う*2。
2. 実験で欠落変数バイアスを出すのは困難
欠落変数バイアスがあれば、n→∞で統計的に有意になると言うことはありえる。X→Yの因果がなくても、欠落変数ZがあってZ→XとZ→Yの因果があれば、n→∞で擬似相関に統計的有意性が出ることになる。しかし、ランダム化比較実験のように介入がある場合は、欠落変数バイアスは原則として入らない。不正をしたければ実験方法にイカサマを入れる必要がある。もはやサンプルサイズの問題ではない。
3. 信頼のある観察データは容易に増やせない
実験を行えない社会科学データの場合は、サンプルサイズを容易に増やせない問題がある。疫学や栄養学方面でも長期コホート分析になっていたらそうは観測数は増やせない。観察研究は増やしやすいが、研究デザインから信憑性は低いと見做される。観察研究から新型コロナウイルス感染症に効くと言われた薬の多くが、後日、大した効果が無いことが分かった。また、adj-R²が低いと欠落変数バイアスを疑われることになるのが通例*3で、統計的有意性があっても他の研究者を説得できるとは限らない。実験の場合も群逐次デザインなどを行って観測を増やさないと、信憑性を疑われる事になる。
4. 効果量も評価されると、統計的有意性を無理に出しても無駄
効果量も評価されることを忘れてはいけない。最近5年間ぐらいに心理学などでCohenのdなど効果量を評価する指標を導入するようになってきた*4が、医療統計学では昔から優越性、同等性、非劣性といった規準を設けて、僅かでも効果量に差があるか否かではなく、臨床的に意味のある差であるかを評価してきている*5。このためか、医薬品として承認されるための臨床試験である治験で被験者を追加する場合もあるが、かなりの率で挫折している。
5. よくある研究不正はchampion data problem
サンプルサイズ100の同じような実験を3回実施して、そのうち1回で統計的有意性が出たとき、その1回の実験結果だけを公表するchampion data problemの方が問題になっている。バナナで授かり効果が出なかったから、マグカップで実験をし直す・・・と言うのが典型例*6。実験ごとにデータを取り直す頻度主義の手法だと、個々の実験は独立しているので問題なのかはっきりしない。少なくともサンプルサイズは増えていない。なお、ベイズ主義であれば全証拠の原則があるので反則。無数にサンプルを分割して多重比較を行いつつも、統計的有意性が出なかったサブサンプルを報告しなかったような事例も同類になる。
6. まとめ
計算が回る最小限のサンプルサイズからはじめることが許されるのであれば、サンプルサイズの逐次拡大は実用的なp-hackingになる。しかし、そんな実験計画は許されない。また、n=100あたりから逐次的に観測を増やしていっても、恣意的に統計的有意性を出すのは困難なことが多い。そして、そもそも実際に問題になっているのは、少ないサンプルサイズの実験で“偶然”異常値を引き当てたり、恣意的に一部のサブサンプルの分析結果だけを報告するchampion data problemの方だ。心配すべきことを間違えている。
*1研究室で模索的に行うことはあるであろうが、少なくとも良い学術雑誌に論文は掲載されない。
*2坂巻 et al.(2020) 「ベイズ流決定理論を用いる臨床試験:効用とサンプルサイズ設計」計量生物学,Vol.41(1)
*3R²を重視する見解に批判的な人々は多いのだが、R²が高いほど良いモデルとは一般には言えないけれども、R²が低いということはX₁を分析している説明変数、X₂を欠落変数、ꞵ₂をX₂の真の係数として 欠落変数バイアス(X₁'X₁)⁻¹(X₁'X₂)ꞵ₂が大きいと見做してもおかしくない。R²が低いと言うことは、従属変数の説明できない分散が大きく、ꞵ₂とX₂によって(も)つくられる誤差項が大きくなるためだ。
*4関連記事:P値を捨てた雑誌で使われている統計量
*5同等性・非劣性の解析(新谷歩) | 2012年 | 記事一覧 | 医学界新聞 | 医学書院
*6授かり効果が追試で効果が確認できなかったことはよく指摘されているが、このようなchampion data problemになっていたかは分からないので、ひとつの架空の例として考えて欲しい。
0 コメント:
コメントを投稿