2023年2月9日木曜日

マン=ホイットニーのU検定(ウィルコクソンの順位和検定)と中央値

このエントリーをはてなブックマークに追加
Pocket

t検定やF検定を使う事が多いので、マン=ホイットニーのU検定(ウィルコクソンの順位和検定)を使った事は無かったのだが、心理学や生物学方面ではよく使われているようだ。しかしこの検定、世界的に定義や性質が誤解されながら運用されてきている。

昨日も、あるU検定の説明は誤りだと言う指摘に続けて、不正確な説明がされるのを見てしまった*1

マン=ホイットニーのU検定(ウィルコクソンの順位和検定)は、

  1. 2標本それぞれからの観測値X₁,X₂においてP(X₁<X₂) + P(X₁=X₂)/2 = 0.5を帰無仮説とする
  2. 2標本の中央値の差の検定ではない(が、中央値に差があると有意となりやすい)
  3. 2標本が同一の分布に従うかの検定ではない
  4. 2標本の分散や観測数が異なるほど、精度が低下する*2
  5. 母集団は連続分布でも離散分布でも扱える
  6. 標本サイズはt検定と同様の大きさしか要求しない

ノンパラメトリック検定だ。中心極限定理もあるし(Welchの)t検定で間に合う事が多いと思うが、順位のデータやコーシー分布を取り扱う羽目になったとか、サンプルサイズが小さいときに検出力をあげたいときには、有用*3。ただし、等分散でなくても精度が落ちないBrunner-Munzel検定と言う上位互換品があって、RであればCRANにあるbrunnermunzelパッケージで気軽に使える。

さて、昨日、非難されていた、2標本の分散が等しい場合に使える中央値の差の検定と言う説明は誤りなのだが、そのように捉えていても運用上はそんなに大きな弊害は無い。検定する2標本が同一の形状で中央値だけが異なる場合、U検定は中央値の差の検定になる*4。おそらくこれは、2標本が単峰の対称分布であれば成立する。2標本が非対称分布であっても、シミュレーションをすると、だいたい中央値の差を検出している。

以下の図の平均値が同じで中央値が異なる2つのベータ分布からの2つのサンプルサイズ300の標本を乱数で生成し、Weltchのt検定とU検定をそれぞれかける作業を1000回繰り返したところ、t検定は55回しか棄却しなかったが、U検定は966回棄却した。平均値には大差が無いが、中央値が異なる場合に、U検定はt検定よりも有用であることが分かる。

ただし中央値の差の検知になっていることが多いとは言え、中央値に差がなくても有意な差を認めがちな場合もある。以下の図の中央値と分散が同じで平均値が異なるガンマ分布と正規分布から標本をそれぞれ乱数で生成し、U検定をかける作業を1000回繰り返したところ、340回棄却した。

*1該当ツイートを見た瞬間は、問題がある説明だとは思わなかったのだが、確認していて気づいた。「U検定は「2群の母集団分布がぴったり等しい」(←超絶強い条件なので否定し易い)という仮説の検定」「Wilcoxonの順位和検定=Mann-WhitneyのU検定は「2つの分布が等しい」=「2つの分布の無限個のパラメータがすべて一致する」という仮説の検定です。」と説明していたのだが、以下のような中央値が同じ異なる対称分布と対称分布の場合、U検定は帰無仮説をα%有意であればα%しか棄却しない。つまり、U検定は2つの分布が等しいかを検定していない。

なお、尖度は、正規分布が0のとき、ラプラス分布が3、一様分布が-6/5である。

追記(2023/08/13 17:17):上記の発言をしていた人は、気づいたら「勝率と1/2の差の検定」という改訂された説明をするようになっていた。

*2名取 (2014) 「マン・ホイットニーのU検定と不等分散時における代表値の検定法」霊長類研究, Vol.30, pp.173–185とBrunner and Munzel (2000) "The Nonparametric Behrens-Fisher Problem: Asymptotic Theory and a Small-Sample Approxim," Biometrical Journal, Vol.42, pp.17–25の5節を参照。

*3ラプラス分布からの小標本の検定でシミュレーションしたところ、確かにt検定よりも検出力が高かった。

*4Divine, Norton, Barón and Juarez-Colunga (2018) "The Wilcoxon–Mann–Whitney Procedure Fails as a Test of Medians," The American Statistician, Vol.72 (3)

0 コメント:

コメントを投稿