2018年3月21日水曜日

ギガジンの説明するt検定の良い所がちょっとおかしい件

このエントリーをはてなブックマークに追加
Clip to Evernote
Pocket

人気ブログGigazineの『ギネスビールの醸造所が統計学的手法の一つ「t検定」を生み出した』の中のt検定の説明が気になった。学部の統計学の教科書に書いてあるようなことなのだが、メモしておきたい。t分布が発明される前に正規分布があった事を忘れているので、妙になっているところがある。

まず、間違いとも言い切れないがモヤモヤとしたところ。

当時の統計学は大規模なサンプルをもとに統計を取る手法が一般的であり、ケースが行ったような11回、14回といった小規模なサンプルでは正確な統計を取ることができませんでした。

ゴセットらが問題にしたのは平均値の誤差で、「統計を取る」と言うよりは「検定を行なう」「信頼区間を出す」と言った方が適切。

以下のところは、文意がよく分からなかった。

t検定の開発により、ビール醸造家たちは2つのサンプルの差異がゼロになる地点を探すのではなく、サンプルの差異を考慮に入れて分析可能になったのです。

二つのサンプルの差異を誤差に入れて統計学的仮説検定が可能になったと言いたいのだと思うが、正規分布を前提として仮説検定は可能だ。母集団の平均値の信頼区間もでる。ただし、標本サイズが小さいと二つのサンプルの差異を誤まって検出しやすくなるし、信頼区間も狭まってしまう。スチューデントのt分布を使うことで、標本サイズが小さくても偽陽性が出にくくなり、信頼区間に精度が得られるようになった書くべきであろう。

以下の部分は、t分布の重要性が矮小化されている。

それ以来t検定は「脳卒中患者の脳機能評価」から「海洋細菌の炭素および窒素含有量の測定」、「どのような行動が炭鉱労働者の事故を引き起こすのか」といった、非常に幅広い研究分野に活用されています。

応用事例は元ネタの紹介を踏襲しているのだが、ギガジンの元ネタ*1の方は生物学、物理学、心理学、バイオメトリクス、経済学、医学など、基本的にあらゆる分野の科学的試みにおいて使われているとも書いてあるのだが、ここだけ抜き出すのはどうかと思う。

母集団の確率分布がかなり特殊で、標本サイズが大きくなるにつれて平均値が正規分布に漸近しない場合はt検定は使えないが、それ以外ではありとあらゆる所で使われていると言っていいぐらい。平均値がある特定の値以上であるかを考えるとき、2つの集団の平均値に差があるか否かを調べる作業は至るところで生じるが、それに使われるのがt検定。

人気の無い応用方法として*2、線形回帰において最小二乗法ではなく、誤差項をt分布とする最尤推定と言うのもある*3。正規分布と比較して、t分布は(特に標本サイズが小さいときに)裾野が広く外れ値が出やすい分布で、外れ値が出やすい状況では推定結果の安定性をもたらす事が期待できる。

なお、t分布の命名者はフィッシャーで、ゴセットはzと言う文字をあてていて、上述のt分布を使った線形回帰もフィッシャーの考案と言われている。

*1The genius at Guinness and his statistical legacy

*2人口の異なる市町村データなどをプロットすると外れ値ができる不均一分散の制御などに便利そうだが、最良線形不偏推定量にならないのと、ウェイトをつけて回帰しても解決できるので人気が無いのであろう。

*3スチューデントのt分布による線形回帰 - Qiita

2 コメント:

Yuta さんのコメント...

そもそもt分布は正規分布に分布する母集団から取ってきた標本の平均が取る分布のはずです。なので仮に標本平均が漸近的に正規分布に従っていたとしてもt分布は使えません。細かい話ですが。

uncorrelated さんのコメント...

>>Yuta さん
標本平均の検定に使うので、中心極限定理が使える限り正規分布に従うと見なせるので、t分布で検定して無問題です。1969年にBradley EfronがStudent’s t-test under symmetry conditionsと言う論文をJournal of the American Statistical Associationに出していて、平均と分散がある対称分布であれば十分である事がわかっています。

コメントを投稿