2015年10月9日金曜日

毎日新聞を擁護して、産経新聞を批判する前に

このエントリーをはてなブックマークに追加
Pocket

統計学を学ぼう。前のエントリーで批判しておいたブログ主から『産経と毎日の「世論調査」のバトルをめぐる不可解なブログ記事』で疑問が出されていた。統計学の勉強をしたことが無いせいか、擁護のためだけの無理な作文になっていて残念な感じになっている。自分が統計について議論してきた事さえ、認識できていないようだ。また、産経新聞の酒井氏の記述にも追加で批判しているが、こちらは厳密な計算をしていないので、適当な批判とは言えない。実際に区間推定値を二つ比較してみたのは評価できるのだが。

1. 毎日新聞・平田氏の記述で統計学的におかしいところ

ブログ主は毎日新聞・平田崇浩氏の「1000サンプル程度の無作為抽出調査では、パーセンテージで通常3~4ポイントの誤差が生じるとされる」を取り上げているのだが、実はここも統計学に関わる疑問が残る記述である。三点、問題を指摘しておきたい。

まずは、毎日・平田氏と産経新聞の想定モデルが噛みあっていない。母集団→標本(サンプル)→副次標本(サブ・サンプル)があることを確認しよう。毎日・平田氏の言う「通常3~4ポイントの誤差」は母集団と標本の間の誤差だ。産経新聞が比較しているのは標本と副次標本の差だ。

次に、ブログ主は見落としているのだが、平田氏は続けて「3.4%という小さな数値を根拠に」産経新聞が議論を行った事を批判している。しかし、1000名中の3.4%と言うか34名の副次標本だが、それに統計的有意性があるかは、観測数も加味される二項分布の分散から計算される有意水準で分かる。実際に計算すると34名もいるので、統計的に意味のある数字になる。直感的にも、平田氏の主張がもし正しいとすると、罹病率が1%未満だから肺がんの疫学分析などしても無駄と言う事になってしまうから、何かおかしいと分かるであろう。

実際に計算してみよう。二項分布に従うので、分散はn*p*(1-p)で表される。nは観測数、pは(共産党を支持するなどの)確率だ。2σラインで区間推定するとうると、p±√(n*p*(1-p))が数で見た範囲になる。率で見た範囲に直すと、p/n±√(n*p*(1-p))/n。n=1000、p=0.5を入れると3.1%になるのだが、これが平田氏の言った「通常3~4ポイントの誤差」。n=34、p=0.411を入れると、41.1±16.9%が副次標本からの値として得られる。標本からの値は5.4%なので、副次標本と標本は異なる性質を持つことが分かる。

なお、平田氏が「通常3~4ポイントの誤差」を持ち出した事は、母集団と標本の間の誤差も評価すべきと言う主張にも取れなくも無いが、それをしても産経新聞の主張は揺るがない。標本からの母集団の区間推定量5.4±1.4%となり、副次標本からの区間推定量41.1±16.9%と重ならない。厳密にイェーツ補正を施したχ二乗検定を行っても、2.331468e-15と0に近い数字が得られる。つまり、有意。

最後に瑣末的な部分だが、統計用語としては「1000サンプル程度」は、「観測数1000程度のサンプル」の方が正確と言う問題もある。

2. 誤差のレベルを超えた差である理由

問題のエントリーにある『酒井氏は、「安保法案に反対する(した)政党を支持する人たちが集会参加に占める割合は、わずか1週間で」誤差のレベルを超えた差で激減したと書いている。この認識は妥当だろうか』以下の議論は、実際に数字を検討していて好感が持てる。しかし、批判するのであれば二標本検定を行って有意性が無い事を確認してからするべきであろう。計算したら統計的有意性があるので、誤差のレベルを超えていると言える。

安保法案に反対する(した)政党を支持する人数の変化
調査日 支持者数 それ以外 合計
9/12-13 25 9 34
9/19-20 19 22 41
合計 44 31 75

2×2の分割表を書いてみたが、これらの数字を元にイェーツ補正を施したχ二乗検定を行えばよい。すると有意水準を示すp値が0.03197…となり、5%有意であることが分かる。「誤差」のレベルを超えた差だ。

『2つの調査の誤差範囲(2σ)には重なりがあるから、「『誤差』のレベルを超えた差」とまでは言い難い』とブログ主は主張しているが、これは研究者を含めてよくある誤解である。テクニカルな詳細は「ダメな統計学」の第6章を参照のこと。なお、平田氏が根拠になる分析手法を示さないから誤解が生まれたわけで、ブログ主に一方的に非があるわけではない。

3. ブログ主は統計手法を批判していた

ブログ主のkojitaken氏が、人が書いてもいないことを勝手な思い込みと憶測に基づいて書いていると主張しているのだが、自分が書いたことを忘れてしまったようだ。統計について議論していないと主張しているが、kojitaken氏が引用中に赤字で強調したのは統計分析に関わるところだし、『産経は、母数が34で、ある選択肢を選んだ回答者が2人でも、平気で「5.8%が××支持層」と書く新聞だと自ら認めている』『世の高校生は、こんな産経の実態を知ったら、「こんなアホな会社には勤めたくない」と思う』と統計解釈について批判をしている限られた観測数から何が言えるのかは、統計学の主要な議題だ。統計的有意性は、観測数も加味して判定される。だからkojitaken氏は産経新聞の統計手法について議論をしていたと言える。

4. まとめと注意

ブログ主のkojitaken氏の産経新聞の統計手法に対する毎日新聞・平田氏の批判への追随と、産経新聞・酒井氏の反論への批判は、標本抽出が適切であれば産経新聞の統計解釈は間違っていないので不適当である。統計的に有意な差があるわけで、百分率の表記の桁数は議論に関係ない。上述したように、毎日新聞の平田氏の批判の方が、統計学的には理解し難いものとなっている。なお、こう書くと産経新聞を擁護しているように思えるだろうが、産経FNN合同世論調査にはRDDの原データに入るバイアスの除去のための調整が適切に行われておらず、解釈以前に統計がおかしい可能性があるので、産経新聞が正しいかは分からない。さらに、デモ参加者に野党支持者が多いのは自明に思えるし、そもそも野党支持者だって一般市民であるから統計分析の政治解釈が何かおかしい。批判するのであれば、この二つに絞った方が良いであろう。

4 コメント:

匿名 さんのコメント...

はい、知能のひっくーい駄文ご苦労さま。
まあ、君自身、己の間抜けさが分かってるんだろうがw
だからこそ君はhttp://d.hatena.ne.jp/kojitaken/20151014/1444777289に反論できずに逃げてるわけで。
バレバレだよw

uncorrelated さんのコメント...

>>pattersonpatter さん
kojitaken氏が依拠する菅原琢氏に意図を聞いてみた所、以下のような回答が得られました。

https://twitter.com/sugawarataku/status/655094234240778240

つまり菅原氏は、産経新聞が統計学的に間違っていると言うより、統計リテラシーの低いかも知れない読者をミスリーディングさせるリスクがあることを問題にしているようです。

kojitaken氏は産経新聞が統計学的に間違っていると捉えてしまっているので、誤解を抱えていることになります。

匿名 さんのコメント...

おいおいw相手が君に気を遣って表現を柔らかくした部分だけ利用して無意味な強弁をすんなやwそれ以前の彼のツイート読んでみろw
産経は一般の読者に向けて書いてるんだから、「産経の伝えたい意図」は、「一般人が受け取るであろう意味」なんだよ。要は産経は「デモ参加者の4割は共産党支持者と判明」」と言ってるのと変わらない。
誰かが「カツオ」と言ったとしても、日本人に向けて言ってるのかイタリア人に向けて言ってるのかで意味が違ってくる。それと同じw

uncorrelated さんのコメント...

>>pattersonpatter さん
> 相手が君に気を遣って表現を柔らかくした部分だけ利用

その前のやり取りを確認して頂きたいのですが、(産経新聞の主張は)「間違いとは言い難い」と明確に指摘したことに対する返事です。ですから、統計学的には産経新聞の主張が揺るがないのです。kojitaken氏が作文技法ではなく統計分析に関わるところを批判している以上、批判は適切とは言えないのは変わらないでしょう。

なお、このツイートでのやり取り、kojitaken氏に伝えようかと思ったのですが、氏の性格から考えて菅原氏を巻き込んでの誹謗中傷を返して来そうなので、見送りました。

コメントを投稿