2014年8月28日木曜日

「月刊宝島」のセシウム汚染に関する記事の統計音痴について

このエントリーをはてなブックマークに追加
Pocket

福島県で急増する「死の病」の正体を追う!~セシウム汚染と「急性心筋梗塞」多発地帯の因果関係~』と言う、「月刊宝島」の記事が、統計リテラシーの欠如と言う意味で、話題になっていた。雑誌の方向性や執筆者の明石昇二郎氏の活動履歴から、わざとボケをかましている気がしなくも無いが、どこが駄目なのか指摘しておきたい。

明石氏は以下に転載した図1、図2で2010年と2012年の『セシウムの土壌汚染密度分布と「急性心筋梗塞」の年齢調整死亡率』を比較している。この二つのグラフでは縦軸が年齢調整死亡率、横軸が原発事故後の汚染程度になっている。ここで主張されていることは、(1)セシウム土壌汚染と死亡率に相関関係があること、(2)原発事故後に相関係数が高くなった事から、昔からある地域要因ではないことの二つのようだ。これからセシウム土壌汚染が急性心筋梗塞の原因になったと主張しているのだが、統計学的に問題がある。

  1. 相関係数0.36が高くない。慣習的なものではあるが、相関係数0.7(決定係数0.5)ぐらいが良い当てはまりと言われる水準だ。
  2. そもそも単回帰分析の相関係数で議論してはいけない。単回帰の係数xが有意かを見ないといけないが、その情報が提示されていない。
  3. 意地でも「有意な相関関係」と言いたいのであれば、ピアソンの積率相関係数を出して、相関係数検定表を参照する必要がある。
  4. 交絡効果がコントロールできていない。セシウム土壌汚染が高いところは避難や除染活動などで心労がたたっている可能性がある。分析では原発直近の7町村が「住民が避難した」と除外されているが、避難区域は11市町村にまたがる。
  5. 不均一分散の効果をコントロールできていない。図を見ると汚染がほぼゼロで、死亡数もゼロな地点がある。過疎地域の異常値に引っ張られているわけで、除外するかウェイトをつける必要がある。観測数は60ぐらいしかない。
  6. 2010年と2012年の二つの単回帰での議論も問題がある。変化を見たいのだから、差分モデル*1を利用すべきであろう。
  7. グラフ・タイトルの「土壌汚染密度分布」の「分布」が意味不明である。それぞれの市町村のデータは分布ではない。
  8. 追記(2014/08/29 10:21):コメントで指摘されていて気づいたのだが、横軸のセシウム土壌汚染の程度が対数値になっている。汚染レベルが増していくと、健康被害の限界効果が鈍ることになるのだが、これで良いのであろうか?

避難状況など心労を表す交絡変数を推定に入れて、かつ差分モデルで係数の有意性を確認できれば、セシウム汚染の影響を主張できると思うが、この分析では話にならない。「沢野伸浩・金沢星稜大学女子短期大学部教授の全面的な協力を得ることができた」とあるのだが、沢野氏はもう少ししっかりした説明を明石氏に行うべきであった。

*1Yを被説明変数、Xを説明変数、α、βを推定する係数、εを誤差項として、Y2012-Y2010 = α + β(X2012-X2010) + εのような回帰を行えばよい。なお、事故前のX2010は得られないと思うが、等しく同じ値とみなして良いであろう。

0 コメント:

コメントを投稿