統計学者や統計分析者でなくても、統計解説の結果を間接的にでも見ることは少なくない。しかし、統計解析を正しく行うのも、分析結果を正しく解釈するのも、実際のところは容易ではない。オモシロ統計が世に広がり、誤解が世間に定着しかねない世の中だ。
所謂統計リテラシーの問題なのだが、ダメな分析や解釈についての一般書でこれと言うものは私が知る限り無かった。類書で『統計でウソをつく法 — 数式を使わない統計学入門』が連想されるが、同書は書かれてから時間が半世紀以上経ち、内容もサンプリング・バイアスや記述統計量(というか平均)の性質、グラフの見せ方の話などがある一方、回帰分析が引き起こす誤謬や、社会や制度が統計分析者に与える影響についての記述は無い。
『ニュースの数字をどう読むか — 統計にだまされないための22章』は、穏当な統計解釈のための考え方を、数式を使わずに文章で説明してくれる本だ。サンプルサイズ、効果量、統計的有意性といった基本的な概念の意味や、シンプソンのパラドックスのように分析に入り込みやすい誤謬の他、出版バイアスやグッドハートの法則のような社会が統計にもたらす問題まで紹介してくれる。最近広まった用語のデータにあわせて仮説を立てるHARkingの問題や、一般書では見た記憶がない出版バイアスをファンネルプロットで示せる話もある。これらは統計学の教科書でも触れられることはあるが、教科書は分析手法とその数理的な性質の説明に紙面が取られる。一般の読者が読む気になる形式で主なトピックを網羅している本書の意義は大きい。統計学利用者でも知らない話、他人に説明する準備が出来ていない話もありうるので、かなり広い層に勧めることができる本だ。実際のところ、ネット界隈で人文系社会学者や理工系研究者の不適切な統計解釈は多々見るし、本書のトピックを全カバーできている人は学者でも多数派ではない蓋然性は高い。広く読まれる価値がある。メディアの人々は最後の「結論および統計スタイルガイド」(pp.239–252)を必ず読め。
ただし、往々にして統計解析に生じる問題を紹介した本で、どのような統計解析でどのような事が示せるのかを説明した本ではないので、厳密に議論がしたければ、やはり統計学の教科書で理屈を確認する必要がある事を心して読んで欲しい。自然実験からの観察で考えることなども紹介されているのだが、ランダム化比較実験(RCT)のみを因果の根拠として認める人々が増えるかも知れない*1。必要なサンプルサイズは、誤差項の分散と効果量の兼ね合いでなどで決まるが、画一的に数十では不足と言い出す人が出てきそうだ*2。統計的有意性の説明は正しいものだと思うが、やはり一般の読者は混乱するかも知れない。ここは分からなかったら難しい概念だなと流し読みをしてしまおう。難点が無いわけでもない。事前確率と事後確率の話で、乳幼児突然死症候群(SIDS)なのに殺人だと誤解された話が例として出されるのだが、ベイズの定理がどう活かされているのか良く分からなかった*3。この章、訳者が表をつけていたり頑張っているのだが。後は難癖だが、p.71とp.86の欧米人の冗談を理解に困惑しそうだ。p.209の爆撃機の被弾箇所の絵は概念図であって、SBDドーントレス偵察爆撃機の絵ではないが、そのように説明がない。もっとも全体として大きな問題は無いので、安心して読んで欲しい。
*1RCTを紙面を割いて説明した後に、「RCTは因果関係を証明するもっとも良い方法」「RCTではない場合、どのような因果関係を主張していたとしても、大いに疑ってかかるべき」(p.91)と書いてある。なお、「RCT自体にも多くの問題があります」(p.90)を具体的に知りたい人は「あなたが知らないランダム化比較実験にある落とし穴」を参照されたし。
*2「必要とされる的確なサンプルサイズは、調べようとしている変化がどのくらい微妙かなどさまざまな要素によって決まります」(p.44)とは書いてあるのだが、続く「経験則としては、参加者が100人未満の研究で、特に、調べていることがかなり意外だったり、微妙だったりする場合には注意が必要」と言う文で、100名未満の研究は全て受け付けない人が出てくる気が。治験の第1相、第2相はそんなに被験者数はいなかったりするので、医療不審を招くかも知れない。心配のし過ぎであろうか。
*3子供2人の死亡原因がSIDSである確率P(SIDS|D)=P(D|SIDS)P(SIDS)/P(D)を考えていると思うのだが、SIDSの定義上、P(D|SIDS)=1になるので、P(SIDS|D)=P(SIDS)/P(D)を考えればよく、ベイズの定理らしさがない。
0 コメント:
コメントを投稿