誤差項が正規分布していなくても最小二乗法(OLS)は使えると言う趣旨のツイートにいろいろとコメントがついていた。経済学徒であればコア科目で必ず習う話なのだが、教科書的なことを確認しておきたい。結論は誤差項は正規分布していなくても良いし、実用上はほとんど気にしなくて良い。ただし、中心極限定理が使えない誤差項だと、t検定やF検定ができなくなるので困る事になるのは心に留めておこう。
普通、誤差項に正規分布を仮定していると教えていると思う。例えばGreene (2003)のChapter 4でもとりえあずそう書いてある。ただし、係数の推定量を出すのに必要な仮定ではないと書いてあるし、Chapter 5には誤差は平均と分散がある対称分布*1であれば、推定量の漸近分布は正規分布になる事が証明されている。つまり、大抵のケースでは深いことを考えずに*2t検定をかける事ができる*3。
真のモデルが曲がった函数でも一次線形近似を与えると言う意味で、OLSは重宝する分析ツールである。大抵のケースでは二次式なのか、三次式なのか、はたまた指数的なものなのか、真のモデルを知らないので。操作変数法で同時性をコントロールしたり、ウェイトをかけて不均一分散をコントロールしたり、固定効果モデルにしたり、バリエーションも豊富だ。
もちろん、y = α + xβ + εのような対数化しても非線形なモデルを推定したい場合はOLSは無力であるし*4、誤差項がコーシー分布のようなシロモノだったりすると困ることになるので万能と言うわけでもない。
*1追記(2019/06/20 09:35):Greene (2003)を正確に読んでいたいたら気づいた話なのだが、誤差項の期待値がゼロであれば、非対称でも問題なかった。
(生産フロンティアからの乖離である非効率性を誤差項とするような、期待値がゼロにならない)誤差項が非対称分布のモデルから生成したサンプルにOLSをかけると、切片項は正しく推定できないが、他の係数は正しく推定できたりする。証明は、推定量は説明変数の影響と誤差項の影響の和で書けるので、誤差を被説明変数とする推定量を考えれば良い。大数の法則で誤差の平均値がその期待値に収束すること、回帰式が説明変数を基底とする線形結合として書け、右辺に誤差の期待値を取れることに注意すると、説明変数の一次独立性により、切片項から誤差の期待値を引いた項と、その他の推定量の項がゼロになる事がわかる。つまり、誤差の影響は切片項にしか影響しない。たぶん。
*2小標本(←明確な基準はないが、自由度が30を切るようだと該当するであろう)では注意すべきなのだが、実際の分析でそこまで少ない観測数である事は少ない。
*3統計解析パッケージが自動的に係数の有意性を計算すると言うか、帰無仮説を係数0と置いたt検定のt値とP値を表示するので、実の所、コースワークで習っていなければ意識した人は少ないであろう。なお、こちらは学部向けテキストでも念入りに書いてあると思うが、時系列データなどでt検定が使えない場合もある。
*4最尤法でも一般化モーメント法でも他に手は色々とある。
0 コメント:
コメントを投稿