2013年7月2日火曜日

回帰モデルにおける統計学的な一次式と二次式の選択方法

このエントリーをはてなブックマークに追加
Pocket

統計学の教科書のF検定のところなどを読めば書いてあると思うが、線形回帰モデルにおける一次式と二次式の選択は、現代的には統計学的に、つまり機械的に行える。目視で明らかに分からないケースでは、こういう手法が便利だ。

具体例がある方が分かりやすいと思うので、乱数からケースA、Bをプロットしてみた。一次線形、二次曲線、どちらが選択されるであろうか?

1. 自由度調整済相関係数を見る

重相関係数を見てみよう。ケースAは0.646と0.661だ。しかし変数が多い方が当てはまりが良くなるので、自由度調整を行う。するとケースAは0.622と0.611。ケースBは0.887と0.911。ケースAは一次線形、ケースBは二次曲線だと予想がつく。

2. F検定を行ってみる

F検定を行おう。誤差がどれぐらい減ったかを検定する方法で、大雑把に一次式が正しい確率が計算される。ケースAはF値0.61だから44.4%の確率で、ケースBはF値5.80だから2.7%の確率で一次線形が間違いとは言えない。

3. 有意に差が無い場合はシンプルな方を採用

オッカムの剃刀ではないが、複雑な式を採用するには、それなりの差が無いといけない。ゆえにケースAでは一次線形、ケースBでは二次曲線と言う事になる*1。予測目的の場合などは少し議論が変わってくるが、仮説検定ではこのような判断が行われる。

4. 統計学的にモデル選択がされたと言うことは

一次線形、二次曲線以外のもっと良い計量モデルが存在する可能性は残る*1が、一次線形と二次曲線のどちらがマシか分かることになる。検定方法も色々とあるし、データセットの特性や信頼性の問題は別に残る*2のだが、計量的に否定された方を有力な説だと肯定するのは苦しいであろう。

*1ケースBでy = γ・x2を回帰し、本文中の二次曲線y = α + β・x + γ・x2と比較すると、F値0.28になるためy = γ・x2と言うシンプルな方が採用される。

*2低線量放射線の健康被害の場合は、広島・長崎LSSデータの特性や信頼性から、動物実験の知見がなければ二次式を採用し、線量率効果係数(DDREF)を計算しなかったと思われる。なお、DDREFは以下のように低線量域で一次式を二次式に近づけるために使われる補正。

0 コメント:

コメントを投稿