2021年1月4日月曜日

ベイズ統計学が意思決定理論(の一部)でないとすると、事前分布が不要になる

このエントリーをはてなブックマークに追加
Pocket

統計学を専門としない数学者が、ベイズ統計学が意思決定理論(の一部)だとすると、未知の分布の(パラメーターの)推測・予測を扱えなくなるので、現実の問題に立ち向かう道具としての統計学にならないと主張していた。ベイズ統計学も推測統計とするこの考え方には二つ問題がある。推測統計であれば事前分布は不要になるし、推測統計だけでは現実の問題に対して意思決定を行うのに十分ではないかも知れない。

事前分布はなぜ必要なのであろうか? — 意思決定をするのに目の前の観測値(データ)以外の情報も加味するから要る*1。データからだけの情報で意思決定すればよいと思うかも知れないが、そうはいかない事態は簡単に作れる。素朴な例を考えてみよう。

雑誌の黒猫と白猫の比率は半々だったという紹介記事(捕獲数不明)を見て離島に黒猫を捕まえに行ったが、午前中には白猫5匹しか捕まらなかったとしよう。頻度主義の標本理論は黒猫比率0%(95%信頼区間0%~60%*2)の不偏推定量を出してくるが、この不偏推定量をもとに「この島には黒猫はほとんどいない」と意思決定して黒猫を捕まえるのを諦めて帰るべきであろうか。

そういう人もいるであろうが、短気だ。もっと穏当な意思決定が出来る仕組みは無いであろうか。ベイジアンであれば、雑誌の紹介記事からの情報を、主観的な事前分布として加味して推定ができる。頻度主義でパラメーターの分布を考えると文句が出そうなので、(Bernstein-von Mises定理から同等と言い張れるかも知れない)無情報事前分布を置いた推定と、情報のある事前分布にα=4, β=4のベータ分布を置いたモノを比較しよう。

(効用関数が無いのでざっくりした傾向の話だが)無情報事前分布だと黒猫がほとんどいない蓋然性が高いので帰りたくなるが、情報のある事前分布の場合はもうちょっと粘りたくなる。

この情報のある事前分布は観測値から生成されていないので客観的ではなく主観的である*3し、広く使える情報量規準(WAIC)で評価すれば、無情報事前分布の方がマシになる。しかし、黒猫と白猫が半々と言う情報に疑義は出ているであろうが、無情報事前分布を置いたものは短絡的な意思決定を誘導しそうで不自然だ。データに過適合するのを防ぐ正則化装置として、情報のある事前分布は機能している。

推測統計としては、情報のある事前分布は無い方が望ましい。しかし、意思決定を考えた場合、事前に得られた情報を加味するのは不自然ではなく、情報のある事前分布を置いてもよいし、少なくない場合で置くほうが望ましい。情報のある事前分布は、目の前の観測値(データ)から生成されないという意味で主観的*4なわけではあるが、そういう主観もバカには出来ない。主観の意味や機能を整理せずに「主観ベイズはトンデモ」と力説する人は、ちょっと視野狭窄過ぎる。

*1ポアソン分布のような柔軟性の低い分布を、柔軟性の高い分布につくりかえて、汎化誤差を減らそうと言う経験ベイズを用いたアプローチもあるわけだが、ベイズ統計学の枠組やツールを使っているだけであって、ベイジアンと言うよりは最尤法の拡張にしかなっていない。実際、事前分布なのに、その(ハイパー)パラメーターが同時に推定されることになる。経験ベイズは有用だし、頻度主義者からベイズ統計学の一部と見なされている事が多いが、ベイジアンから見ると似非ベイズ統計学になる。

*2期待値の推定量から分散ゼロになりそうだが、そうは考えない(Hanley and Lippman-Hand (1983))。

*3二項分布であるべきではないかとか、α=βとしても、その値を正当化する理屈が無いとかツッコミ所は山ほどある。当該雑誌の他の記事の信憑性を評価するSNSの情報から、事前分布を精査するようなことができるのであればしたいところだ。Gelman and Shalizi (2012)も主観的な事前分布も(推定モデルのほかの部分と同様に)テストするなりして正当化しろと言っている。口語の意味での客観性の増した、ベイジアンの意味での主観的な事前分布がつくれる。

*4もちろん逐次ベイズ推定(ベイズ更新)の事前分布も、この意味では主観的。

0 コメント:

コメントを投稿