「統計的消去で擬似相関を見抜こう!」と言うエントリーが、分散分析で擬似相関を識別する方法を紹介している。
この内容は全く正当だし、使っているデータセットは統計的消去の説明のためのものに過ぎないのだが、体格と成績は無関係でしたと言う例は危うい気がしなくもない。実は体格と学力を表す調査はあるからだ。
例えばInternational Journal of Epidemiology誌に掲載された研究によると、1950年から1975年に生まれたスウェーデン人の27歳時の教育水準を分析すると、身長が高い方が教育水準が高く、特に194cm以上の男性は、165cm未満の場合の2~3倍の進学率だったそうだ。また兄弟間でも身長が高い方が進学率が高く、家庭的な要因をコントロールしても身長の影響が観測されている。認識能力もコントロール済みなので解釈は難しいのだが、体格の影響があるのは確かだ。
他にも、開発途上国では栄養状態が良い子供が発育が良く、身長と知能の発達が早くなる事は知られている。たんぱく質不足になるとIQが15ポイントぐらい低下すると言われ*1、当然、食べる物が無い子供はこれになりやすい。年齢をコントロールした上で、“足の大きな子供の方が頭がいい”なんてことが起きるわけだ。下手をすると分散分析をかけても、体格が算数の能力を決定し、年齢*2は関係ないなんて結果が出てくる。
体格と算数の関係は、擬似相関の例としては、実は脆弱だったりする。様々な要因があるからこそ分散分析などで分析をする必要があると言う意味では、エントリーの記事内容の重要性を補強するものでしかないが。なお、分散分析はエントリーで書かれているように潜在変数は探してくれないし、同時性の問題がある場合は問題が残る。算数が出来る方が親の機嫌が良くなり御飯が食べられて身長が伸びるなんてことは無いであろうが、強い相関関係を見つけるためのツールだと考えた方がいいかも知れない。
0 コメント:
コメントを投稿