2013年9月24日火曜日

一般化線形モデルにこだわりすぎ

このエントリーをはてなブックマークに追加
Pocket

先日、問題点を指摘してみた一般化線形モデルに関する記事の補正記事『「使い分け」ではなく「妥当かどうか」が大事:重回帰分析&一般化線形モデル選択まわりの再まとめ』のエントリーが出ていた。

一般化線形モデル(GLM)をクリック数やコンバージョン数に適応する上での注意事項を考察したもので、その内容に大きな問題があるわけではないし、タイトルにこめられた意図も同意できるモノだ。しかし、モデル選択を考える上でGLMにこだわる必要があるのかと言うそもそも論が気になった。

1. 一つの推定モデルに複数の手法が適用できる

どういう事かと言うと、推定モデルがまずあって、それの計算方法を選択すると考える方が順当だと思うと言う事だ。極端な事を言うと、y = Xβ + εと言う線形モデルを考えたときに、最小二乗法で推定してもいいし、最尤法で推定してもいいし、最尤法をNR法で実行しても、BHHH法で実行しても、MCMCで実行しても良いはずだ*1

2. 分布と推定モデルは1対1の対応ではない

推定モデル、つまり分布をどうするかが最初に来る。ここは計量経済学のテキストを見ると分かると思うが、多種多様な選択肢がある。エントリーではGLMを使うという前提があるので分布で分類していたわけだが、分布だけでは推定モデルは定まらない。例えば、正規分布だとしてもパネル・データ分析をした方が良いときも、プールしたまま分析した方がよいときもある*2

3. 一般化線形モデルで推定できても非線形

エントリーの最後で「ポアソン回帰とかロジスティック回帰とかは最終的な定義式の形にすると線形モデルの形に直せるので・・・非線形などではありません」とあるのだが、関連した議論を見たことが無いので勘違いかも知れないが、妥当に思えない。計算手法に関わらず、推定されるモデルは非線形だからだ。

例えば二項分布をロジスティック回帰することを考えよう。観察される被説明変数Yの値kが発生する確率P[Y=y]を表す二項分布は以下のようになる。pがある種の本源的な確率。

被説明変数yが0か1かの二択であれば、n=1となり、nCyはyに関わらず1になる。

N個の観測値y1,…,yi,…,yNの同時確率は、回帰分析なのでl+1種類のパラメーターβ0,…,β1,…,βlで制約をつけて、以下のLのようになる。Lは尤度。

pの代わりに、観測値yiごとに異なるpiを導入し、piとβ0,…,β1,…,βlの関係を以下のように定式化すると、ロジスティック回帰モデルになる。

多少、詳しくモデルを復習したのはどこが線形に見えるかと考察するためなのだが、全く見えない。

GLMを使うと線形化した上で繰り返し演算を行ってβを推定してくれるわけだが、それは計算方法の問題であって推定されるモデル自体の話では無いであろう。最尤法やMCMCで計算したって良いからだ。

4. まとめ

GLMの機能を使い分けようと言う最初の問題設定によるものだと思うが、計量モデルとその計算手法の区分けが曖昧になっていて、全般的に混乱が見られるような気がする。統計解析は分野ごとに風習があって、GLMが良く使われるとGLMを中心に話が進むのだと思うのだが、一旦GLMから離れて推定モデルを見た方がより一般的な議論になると思える。あまり考えないでガツガツと分析結果を出す方が生産的だけど(´▽’)アッハン

*1計算方法によって計算結果は変わりうる。最尤法だと初期値によっては収束しない可能性はあるし、MCMCだとそもそも計算しているモノがかわる。

*2同時性や不均一分散、系列相関などの問題が生じる可能性もあり、それらに応じた計量手法を選択すべきこともある。

0 コメント:

コメントを投稿