2021年3月31日水曜日

主観的な事前分布への違和感を軽減してくれる『異端の統計学ベイズ』

このエントリーをはてなブックマークに追加
Pocket

伝統的な頻度主義の統計学を最初に習うので、学部の講義でベイズ統計学を教えているところは少ない気がするのだが、最近はベイズ統計学の応用が広まっているし、大学院の講義があるところは多いと思う。しかし、数学や統計学の講義は形式的になりがちで、(教員が説明したくても時間が限られているため)その歴史的は説明してくれない。歴史を知らなくても数理的な特性だけ理解できればよいと言う人もいるのだが、歴史を知るとその便利さが分かるし、何より親近感を持てるようになるものだ*1

異端の統計学ベイズ』はベイズ統計学の発生から発展の歴史の本で、講義の空白を埋めてくれる本になる。ベイズ統計学が、最初期のベイズとプライスの頃はさておき、ラプラス以降は軍事や保険など観測データが限られるときの意志決定の場における応用統計の場の有用なツールとして発達してきたこと、ラムゼー、デ・フィネッティ、サヴェッジが意志決定理論の一部*2として体系化したこと、計算機の処理速度とアルゴリズムの進歩で複雑なモデルも応用されるようになったこと、統計学や哲学の大御所であっても主観的な事前分布を受け入れる事ができなかったことなどが、詳しく記述されている。エピソード豊富と言うか、本が分厚くて読みきるのがつらい。文庫の訳書なのだが参考文献もしっかりついていて、出版社偉い。

ただし、歴史の本であって数理統計学の本ではないので、最初にあるベイズの定理の説明以外は、雰囲気で読ませるものとなっている。読者にベイズ統計学の知識が要求される。例えば、推定に用いるデータからは生成しないと言う意味で主観的な事前分布を置く所謂主観ベイズホンモノと、ハイパーパラメーターを持つ確率分布を事前分布を置いて、データからハイパーパラメーターも同時に推定する経験ベイズマガイモノ*3の、どちらの話をしているかは読者が識別しなければならない。前半は主観ベイズの話をしていると思うのだが、後半の計算機の進歩によって普及したと言うのは経験ベイズの話では無いであろうか*4

ベイズ統計学の入門書(や数理的な本)だと経験ベイズの有用さを強調している事が多いと思うが、本書ではまずそれらしい主観的な事前分布を置いてベイズ更新を繰り返す逐次ベイズ推定の実用例が幾つも紹介されている*5。歴史書なのでほとんどは詳細不明だが、はっきりとどんな主観確率を用いてどういう意志決定に用いているのか分かるのが*6、薬剤以外の医療機器に対するアメリカ食品医薬品局 (FDA)の許認可の事例(pp.505–506)。はっきりとした説明でもないので内容を補完するが、同じシリーズの製品の旧型の安全性を主観的な事前確率と置いて*7、新型の試験結果をデータとし、出てきた事後確率を新型の安全性として、試験回数を減らして、迅速かつ低費用に許認可を行っているそうだ。

統計学は標本から母集団を推測するためだけの道具と思っている人には、意志決定するための統計学もあることを知るために、ぜひ本書を読んでもらいたい。哲学的に一貫性コヒーレンスを重視するベイジアンの考え方も、もう少し理解できるようになると思う。頻度主義的な標本理論が悪い道具と言う話ではなくて、他の種類の道具もあると言うこと。主観的なベイズ統計学を、無理に標本理論の枠に当てはめなくても良いと思うはずだ。いや、それなりの統計学者や哲学者も最後まで主観的な事前分布に抵抗があったようなので、無理かも知れないが。

*1関連記事:『統計学を拓いた異才たち』で触れる統計学史

*2関連記事:ベイズ統計学が意思決定理論(の一部)でないとすると、事前分布が不要になる

*3ベイズ統計学の本で紹介されるのにも関わらず、経験ベイズはベイジアン手法ではないとされている(Deely and Lindley (1981))。

*4ベイズ統計学の本に載っているのにも関わらず、ベイジアンは経験ベイズをベイズ統計学と見なしていない。なお、分類上の問題であって、経験ベイズの有用性が否定されているわけではないから悪しからず。

*5去年から毎日更新して公開されている新型コロナウイルス(SARS-CoV-2)の実効再生産数Rₜの推定も主観的な事前分布を置いている。つまり、昨日と今日ではウイルス株や人々の予防程度は異なるわけだが、昨日の推定パラメーターの事後確率の分布を、今日のRₜの推定のための事前分布としている。

*6第二次世界大戦中に英国がドイツの潜水艦の位置を推定する話なども興味深いのだが、具体的にどういう主観確率を置いたのか理解するための手がかりは記述されていなかった。

*7本書の説明では「客観的な事前確率」とあるのだが、推定の構造から考えると主観的な事前確率でしかあり得ないので、口語の意味で客観的だと正当化されたデータから生成されないと言う意味で主観的な事前確率と解釈した。

0 コメント:

コメントを投稿