2016年9月12日月曜日

社会学者の卵の古谷有希子の統計知識の問題点

このエントリーをはてなブックマークに追加
Clip to Evernote
Pocket

「仲間内では実証主義者め!とジョークで笑われている」社会学者の卵の古谷有希子氏に、前のエントリーで収拾したデータを不適切に扱っている上に、仮に分析が適切でも結論を支持するものにはならない事を指摘したら、「データの信頼度なんて人命や人権に比べたらクソくらいの価値」と言い出した。社会学イデオロギーの存在を主張している私から見ると良い事例なのだが、それはさておき危うい統計学の知識を披露し続けているので、指摘したい。周囲の社会学者は彼女の不満に同意するだけで、何も突っ込まれない裸の女王様状態になっているようだ。

1. 欠損値をゼロとして分析してはいけない

詳しくは前のエントリーを参照して欲しいが、欠損値をゼロとして処理してしまっている。欠損値は、ゼロとは限らない。三つあるグラフのうち、一つの元データの一部を見てみよう。ピンク丸が欠損値だ。

これを元に古谷有希子氏が作ったグラフを見ると、データが無いはずの国名が6つ入っている。33しかないので、相関係数などは大きく変わりうる。そもそも相関係数もしくは、説明変数の有意性を確認していないのが問題なのだが*1

ところで、ロシアはOECD加盟国ではないが、何故か混じっている。

2. サンプルサイズ3000はやる気が無いと言えない

古谷有希子氏が、色々と暗数推定の資料はあると示唆された『犯罪被害実態(暗数)調査』を見て「3000だってさ。しかも最新の調査は平成24年。ははは!やる気なさすぎ」と言っていたのだが、社会調査について何も学習していない事を告白している状態になっている。統計分析に必要なサンプルサイズについては色々と議論があるのだが、この場合は犯罪にあったか否かの二択の質問なので、被害率2%であるから95%信頼区間±1%ポイントを狙っても753人いれば十分になり、平成24年調査の4,000人(有効回答数2,156人)は少なすぎるとは言えない*2。なお、4年に1度なので少し古い感じがするかも知れないが、過去の傾向から未届けの性的事件の被害の暗数が急減/急増したりするわけもない。

なお、米国の調査で膨大なサンプルサイズのものがあると言っていたが、人種など分析すべき属性が数多くある場合は大きなサンプルサイズが必要になる。古谷有希子氏の問題意識は単純なので、そこまで大きなものは必要ない。また、サンプルサイズが一定以上になると統計誤差はそう減っていかなくなるので、標本数が一定数を超えたら有効回答数を上げるようにしたり(回答してくれる人としてくれない人で、実態が異なる場合がある)、層化サンプリングで分散の大きさに応じて割当てを変えたりする工夫をした方が良いとされる。

3. 母数はサンプル・サイズを意味しない

古谷有希子氏は何故か母数(parameter)をサンプル・サイズと取り違えたツイートを4回続けていた。「欠損値の問題は…そこまで外してしまうとどんどん母数が減って分析できない」「完璧な処理をしたら母数が少なすぎて結局使えない」「5人しか母数が無かったらインタビュー断られたらそれだけでおしまい」「完璧なデータで母数も十分にあるもので私の仮説を実証してよ」。母数は平均や分散のように確率分布の特徴を決定する数の事を指す。

4. 古谷有希子氏の主張をどう裏付けばよいか

じゃああんたが完璧なデータで…私の仮説を実証してよ」と本当に院生なのか謎な嘆きをしていたのだが、研究計画が立つか検討してみよう。「仮説を却下するために分析しそう」だと思うならば、自分でやらないといけないから頑張れ。

古谷氏が自分の主張を理解できているのかが良く分からないのだが、二つの主張を同時にしている。一つは、女性を抑圧する社会ほど、強姦事件の認知件数が少ない(=暗数が多い)。一つは、日本には刑事告訴されない強姦事件が存在する(=大きな暗数がある)ので、被害者が刑事告訴に踏み切れるような制度改正すべしである。

一つ目は、国際犯罪被害実態調査(ICVS:International Crime Victimization Survey)で暗数調査をやっているので、古谷氏がエッセイで参照していたOECDのGender, Institutions and Development Database 2014 (GID-DB)の数字と相関係数を取ればよいであろう。OECDの数字の方は項目が多いので、主成分分析などで成分を二つ取り出して、例えば法的要素成分と慣習要素成分などと命名してから重回帰分析をかけるか、少なくとも各項目の数字は標準偏差で割って偏差値にしてから合算した方が良いと思うが、手続き的にはこれで済むはずだ。厳密には強姦事件だけではなく性犯罪になるが、そこは痴漢被害が言い出しづらい社会で強姦被害が言い出し易いとは言えないと主張しても良いと思う。なお、先行研究がある可能性は十分にあるので、車輪の再発明にならないように文献調査はしてください。

二つ目の前段、つまり日本の性犯罪には暗数があることは既に調査が行なわれているので、基本的にはやっても無駄な話になる。暗数があることは色々と調査があって、例えば『女子のための「性犯罪」講義―その現実と法律知識』でも「2004年に第二回犯罪被害実態(暗数)調査…性的暴行を受けたことがあると答えたのは27人(回答者の2.5%)…警察へ届け出たと答えたのは4人(14.8%)」(P.121)と紹介している。上と同じ調査なのだが、2004年では性的事件ではなく性的暴行の被害の有無を聞いていたようだ。数字からすると、2004年も2012年も回答者は性的暴行を意識していそうだが。

5. 古谷有希子氏が根本的に勘違いしている点

古谷有希子氏は私を指して「こういう人は実証主義ではなく実証主義レイピスト」と言っているようだが、そもそも性的暴行事件に暗数が相当数あることは誰も否定していないし、裁判などの証言が被害者負担になることは良く指摘されているわけで、被害者が刑事告訴しやすい状況を作れと言う古谷有希子氏の政治的な主張自体は、凡庸な事を除けば何の問題も無い。テクニカルな部分が粗雑だと指摘されていることは、必ずしも政治的な主張を否定されていると言う事では無いので勘違いしない方がよいと思う。もっともそれが社会学ディシプリンで、後に引き返せない世界にいるのかも知れないが。

*1従属変数と説明変数の関係が非線形の場合は相関係数が低くなってしまうが、その場合も線形回帰は一次近似になるので機能し、説明変数の係数の有意性で議論することができる。具体例が知りたい人は、サリドマイド訴訟で製薬会社側が相関係数を盾に薬害が無いことを言い張ったのを、裁判官が棄却した事例があるので調べてみると良いであろう。

*2理屈は二項分布と区間推定で検索すると「7-2. 成功確率(比率)の信頼区間」などのような資料が出てくる。深い事を考えなくても「サンプルサイズの決め方 ? アンケート調査で何人分の回答を集めれば良い?」など、計算式は良く紹介されている。

0 コメント:

コメントを投稿