「イチローの安打数がポアソン分布にならず正規分布になる理由を考察してみた」が流れてきた。曰く、1994年のイチロー選手は打率が高く好不調の波が小さいので、その試合ごとのヒット数はポアソン分布では無く正規分布に従っていると主張されている。分析と解釈に色々と問題があるので指摘したい。
1. 平均>分散の場合に使える離散分布もある
ポアソン分布では無いと言うのは確かで、ポアソン分布に当てはめるには過小分散である。しかし、平均1.615の離散分布を連続の正規分布と言うのは問題が大きい。連続と見做すには観測値の種類が少なすぎるし、0の頻度は0よりかなり大きいく非対称だ。離散分布にマシなものが無いわけではなく、例えば超幾何分布などは実測にずっと近い分布になる。
2. 打率が高さが理由で、ポアソン分布で無くなることはない
ポアソン分布にならない理由は何であろうか? — 打率が高いからと言う説明は誤りだ。そもそも四球と死球と失策が分母から除外される打率ではなく、打席数あたりのヒット数を見るべきなのはさておき、打率が高く一試合あたりのヒット数が増えても、ポアソン分布であるべきものが、ポアソン分布でなくなることはない。ポアソン分布が正規分布に形状が近くなるのは平均が10を越えてからだし、正規分布に形状が近くなってもポアソン分布であるのは変わらない。
過小分散であるので、ポアソン分布の当てはまりが悪いと言うのはそうではあるが、打率が高ければヒット数が増えて分散も増えていくので、打率が高いことは過小分散を説明しない。好不調の波が小さいので過小分散になった説もおかしい。ポアソン分布の分散は、パラメーターが一定で好不調の波が無いことが前提になっているので、ポアソン分布に従うべきものであれば、好不調がない場合もポアソン分布に従うことになる。むしろ好不調の波があれば、パラメーターが動いて過分散になる。
3. すべての打席の安打率が同じでも、ポアソン分布に従わない
ポアソン分布を仮定した議論がそもそも誤りである。野球の一試合の打席数は概ね決まっているので、ポアソン分布よりも二項分布の方が一試合あたりのヒット数の分布をよく表す*1。1994年のイチロー選手は1試合平均4.2打席で、打席あたりのヒット率は約0.34で一定であり、1試合あたり約1.62本のヒットであっても、分散は0.94ぐらいになると概算できる。実際のヒット数の分散約0.91ぐらいにぐっと近づいた。
もちろん試合ごとに打席数は異なる。当時のイチロー選手の試合ごとの打席数は分からなかったのだが、今年のヤクルトスワローズの後半戦の1番バッターの打席数(i.e. 4打席が12試合、5打席が21試合、6打席が2試合、7打席が1試合*2)と同様の比率の打席数の分布を仮定してシミュレーションをすると、分散は約1.12となる*3。ポアソン分布が要請するより、過小分散なのは変わらない*4。
ポアソン分布を仮定した議論はおかしかったが、イチロー選手の試合ごとのヒット数の分散が小さいと言うのは誤りとは言えない。ただし、解釈は難しい。好不調の波が小さいことも前提になるのだが、それだけでは説明できない。早い回にヒットが出ていない試合はバッティングを工夫したり、ヒットが出た試合は長打を狙って確実性を下げたり、四球などで歩かされたりして確率が下がったのかも知れない。
0 コメント:
コメントを投稿