「クロス集計表を作るのは簡単だけれど、カイ二乗検定の説明になると難易度が数段上がってしまう」と言うツイートを見かけた。まさにその通りで、クロス表の独立性検定はよく見かける一方で、その説明は難しい。
クロス表は二種類の因子の組み合わせごとの度数をまとめた表のことで、独立性検定とは二種類の因子に相関が無いと言えるかを調べる方法だ。共変量を統制できないので効果的に利用できる場面は限られるが、入門レベルの教科書や学部の講義ではよく紹介されている。
先日、Rでチマチマとクロス表の検定と信頼区間の計算する方法をまとめておいたが、利用するのは簡単だ。しかし、説明するとなるとカイ二乗検定とは何か、なぜ独立性検定の統計量がχ二乗分布に従うと看做せるのかのを説明できないといけない。
数理的に理解を試みると次のような段階を追うことになる。
- 多項分布の導出
- 多項定理が分かればそのまんまである。分散と共分散も導出しておこう。
- 正規分布の導出
- ガウスの公理から正規分布を導出する。初歩的な微分方程式とガウス積分が理解できていれば、そう難易度は高くない。ガウスの公理からして習った記憶がないのだが。
- χ二乗分布の導出
- 正規分布に従う変数を期待値と標準偏差で正規化した値は標準正規分布に従い、二乗するとχ二乗分布に従う。積分の変数変換と数学的帰納法が分かれば、ガンマ関数とベータ関数が出てくるだけで、正規分布から導出できる。
- 中心極限定理の証明
- これの証明に同じモーメント母関数/特性関数であれば同じ分布になる定理の証明が必要で、紹介ではなくしっかりした説明はフーリエ積分を使った統計学の教科書でないと見ない気がするが、多項分布を正規分布で近似するわけで、避けては通れない。
- χ二乗検定の統計量がχ二乗分布に従うことの証明
- χ二乗検定の統計量は、観測値から期待値で引いて期待値で割ったものの二乗(の合計)である一方、χ二乗分布が表しているのは、変数を期待値と標準偏差で正規化した値の二乗である。注意深い人は標準偏差ではなくて期待値でいいのか気になって、夜も眠れなくなることであろう。だが安心して欲しい。検索すると7通りも証明を整理してくれている論文がある(Benhamou and Melot (2018))。これで観測数がnのとき、χ二乗検定の統計量が自由度n-1のχ二乗分布に従うことが分かる。
- クロス表の検定量がχ二乗分布に従うことの証明
- ここまででほとんど説明は済んでいるが、あと一歩足りない。クロス表の検定量は、行数r列数cのとき自由度(r-1)(c-1)のχ二乗分布に従うわけで、自由度rc-1ではない。
- 自由度(r-1)(c-1)は直感的に理解できる。行ごとと列ごとの合計値が定まっているときに、その内訳の分布を考えているわけで、クロス表のセルを(r-1)(c-1)を埋めたら他の値も確定するからだ。
- 問題は、検定統計量がχ二乗分布に従うか自明でないことだ。理由は想像できるのだが*1、内外の大学のレクチャーノートを見ても明確に説明しているものは見かけなかった。
試した限りでは流行の生成AIもダメそうであった。私も最後があやふやなので説明できない(´・ω・`)ショボーン
統計学利用者としては、大まかな目安があればよいのでいちいち証明/導出を確認する必要はないのだが、よくよく考えるとかなり誤魔化されている。初学者にこの順番に教えていくと初学者ブレーカーになり、旧帝大の学生さんぐらいしかついてこなくなるので止むを得ないが。なお、演習としては悪くない。
ところでクロス表のχ二乗検定をもちいた独立性検定は、Pearson's chi-squared testと(尤度比検定に持ち込む)G-testがあり、両者を混同している人がいた。名前からしてややこしい議論である。イェーツ補正をかけべきとか、かけない方がよいとか、どうすればよいのか分からなくなることも言われるし。
*1rc-1-(r-1)(c-1)個のセルの値を合計すれば、多項分布は変数を合計しても多項分布に従うので、χ二乗検定をかけられる。しかし、クロス表の独立性検定ではセルの値を合計したりはしない。(Σi=(r-1)(c-1)(Xᵢ-npᵢ))²/(Σi=(r-1)(c-1)npᵢ)をχ二乗統計量の和の一部のΣi=(r-1)(c-1)(Xᵢ-npᵢ)²/(npᵢ)で置き換えることになる。Xは観測値、pは生起確率で、npは期待値。二つの式はどちらも分散の計算になっており、共分散がゼロであればこの二つは一致する。多項分布なので、分散はpᵢ(1-pᵢ)で共分散は-pᵢpⱼ (i≠j)となる。pが十分小さければ、分散に対して共分散は何桁も小さい値になる。セルの数が多くpが小さければ、近似的に置き換えることができる。なお、この想像が正しいかは文献で確認できていないので信じないでください('-' )\(--;)BAKI
0 コメント:
コメントを投稿