季節調整済の就業者数の一階差分、二階差分の集計値の妥当性を批判するために、疑似科学ニュースのブログ主のメカAG氏が、就業率の12ヶ月移動平均の一階差分、二階差分を見ていると言い出した。ある集計データの特性を議論するのに、他の指標を持って来ておかしいと主張するのが、偽科学の信奉者らしい。それでも一応、どんな問題があるか指摘しておきたい。
1. 就業率は15歳以上人口の影響も受ける
就業者数と就業率の違いはある。就業率=就業者数/15歳以上人口と言う関係なのだが、15歳以上人口も刻々と変化しているからだ。就業率に異常があるとして、就業者数によるものか、15歳以上人口によるものかが判別がつかない。だから就業率の差分の傾向で、就業者数の差分の集計がおかいいと議論するのは、就業者数が観察できる以上はおかしい。メカAG氏はおかしい事に気づいていないので、認知的不協和が発生しているようだ。
2. 12ヶ月移動平均の一階差分は昨年との差/12
季節調整値と12ヶ月移動平均の違いは大きい。階段関数の季節調整値は、階段関数になる。一階差分をとると、特定月だけに値が出ることになる。これを確認した上でデータを解釈してきた。12ヶ月移動平均の一階差分は何を意味するのであろうか。2014年1月の12ヶ月移動平均の差分を考えてみよう。(2013年2月の値 + … + 2014年1月の値)/12 - (2013年1月の値 + … + 2013年12月の値)/12 = (2014年1月の値 - 2013年1月の値)/12。つまり、昨年との差の十二分の一を見ることになる。
3. 昨年との差がV字や逆V字の変化をしても
メカAG氏は就業率の12ヶ月移動平均の一階差分がV字や逆V字であることを指摘していたわけだが、就業率の増加が続いている時期と、減少が続いている時期を意味するだけで、就業率が階段状に変化していることは意味しない。それでも昨年差の絶対値の集計をとったら、就業率が大きく変化する月を掴めると思うし、二階差分をとれば階段状かが分かると思うが。メカAG氏は集計しないのであろうか。
4. 就業率データを分析してみる
季節調整済の就業者数と就業率の12ヶ月移動平均が異なることは以上のとおりだが、季節調整済の就業率に変化しやすい月があるのかを、季節調整済の就業者数と同様の手順で確認してみた。際立って変化しやすい月は無く、メカAG氏が気にする4月もそういう傾向は無い。なおメカAG氏が気にしていた差分の特徴も存在しない。
5. メカAG氏の認知的不協和について
案の定、簡単なyes/noの質問に答えられなかったし、就業者数と就業率が同じに見えていたし、季節調整値と12ヶ月移動平均も同じに見えていたので、よほど愚鈍な人でも無い限りは、認知的不協和を発生していると思われる。
また、プロットしただけで「この赤線(=二階差分)って何の傾向も示していないノイズ」と言っていたので*1、シミュレーションでノイズだらけに見える集計前データからも観測数を集めれば傾向が掴めることを示したのに、「誤差に関する認識がその程度」とメカAG氏は統計学のもっとも基本的な大数の法則を拒絶してしまっている。これも認知的不協和の一種であろう。
何はともあれ科学を語るのであれば、もう少し科学的方法に習熟して頂きたい。統計学を勉強するときに知っておきたい7つのポイントを挙げてあるので、まずはここから頑張って欲しい。
追記(2015/02/10 19:30):疑似科学ニュースのメカAG氏からコメントが来ていたのだが、偽科学の信奉者らしく確率・統計に拒絶反応が抜けないようだ。
ほとんどの月が「毎月大きく変化してる」ことになるよね。んで、そんなデータの処理方法に意味があるの?と言ってるのだが。殆どの月が毎月変化してるなら、それはノイズだろう、と。
その疑問には既に答えた。大数の法則で誤差がゼロに平均回帰していくので、標準偏差(←誤差の大きさ)が17でも24個足すと3.5まで落ちる。毎月の変化がほとんど誤差でも、データの量によっては月次バイアスを捉えられないわけではない。
二階差分が全てノイズであっても、月次バイアスの存在が無いだけなので集計に問題は出ない。二階差分を⊿x(t) - ⊿x(t-1) = ε(⊿x(t):t時点の差分、ε:誤差項)とおくと、⊿x(t) = C + η (C:定数、η:誤差項)とランダムウォークになる。しかし集計して月次バイアスが無いと言う結果が誤りにはならない。
だからノイズが大きい事が集計の意味を変えるわけではないので、『折れ線グラフを示さなかった。なぜか?やっぱこの折れ線グラフを示したら「こりゃノイズだろ」とバレてしまうから』は妄想だ。見せなかったのは、人間の目で判断するのが無理だから。
モデルが大事といつも言っている割には、誤差項に関してモデルを何も考えないで議論しているメカAG氏が、どんな科学読本を読んでいるのか気になる所だ。何はともあれ大数の法則は現実によく観察されるので、覚えておく方が良いと思う。
uncorrelatedのやり方(雇用者数の季節調整値)でも、俺のやり方(就業率の移動平均)でも、ほぼ同じ結果になる。この違いが今の議論で問題になるとは思えない。
一階差分に関して「一見してわかるように、変化する時はまとまって変化してるよね。1年を通じて下がっている時は、1年の大半の月で個々に見ても下がっている。上昇も、上昇している期間が短いからそれほど顕著ではないが、同様の傾向がある」と言うのは、移動平均の差分だから出てきた傾向だから、問題になっている。12ヶ月移動平均の一階差分は昨年との差の十二分の一になることは既に示した。
言い出したも何も最初から言ってるわけで、それに異論があるなら、その時にいえばいいじゃん。
就業率の初出を確認したところ、原数値も移動平均値も季節調整の妥当性の文脈で出ているので、そのときには問題が無い。見落としかも知れないが、就業率の一階差分のプロットは初出だったように思えるし、それに解釈を与えたのも初であろう。
自分で移動平均のグラフを書いてるわけだよね?
最初のグラフは、季節調整値も移動平均もトレンドが変化した時点が分かることを説明しているもの。二つ目のグラフは説明で「季節調整値は階段状に見えない。また、ブログ主は判別できないようだが、十二ヶ月移動平均の角が丸くなる」と書いておき、異なる特性に言及している。さらに集計値も二階差分の分しか出しておらず、移動平均の一階差分の解釈は与えていない。
ところで俺が描いた1階微分のグラフが間違いだと言ってた件、どうなの?やっぱいまも間違いだと思ってるの?YESかNOで答えてもらいたいものだね。
就業率の一階差分のグラフに関して「間違い」とは書いていないが、「手前勝手で論理的な根拠を欠くデータ処理」で「作成方法が不明」なことを意味するのであれば、YES。就業率の12ヶ月移動平均の一階差分、二階差分を見ているとは明記されていなかったことは変わらない。そして、就業率と就業者数は異なるし、季節調整値と移動平均の差分の特性も異なる。
意思決定が階段状だと言ってると何度言えばわかるのか。
就業者数が年間を通じて変化していることを認めるのであれば、一階差分の議論は何のためにしているのか。そもそも毎年4月に年間の意思決定がされると言うメカAG氏の持論からは、2012年11月以降とされるアベノミクスで、2012年9月から2013年3月までの雇用が増えたと言えないことをなぜ認めないのか。
メカAG氏はモデルが大事と言いつつもモデルを明示せず、議論の焦点が拡散する。大数の法則を理由も無く否定していて、ICRPの防護モデルが一つしか無いという事実を認められないメカAG氏だから、認知的不協和を起こしているのだと思うが、そもそも数理モデルを一つも勉強をした事が無い気がして来た。「微分方程式で数学モデルを作ろう」は色々なモデルを紹介している名著なのだが、これから勉強してみることをお勧めしたい。
追記(2015/02/12 12:00):疑似科学ニュースのメカAG氏から返事が来ていたのだが、観測できないものを主張するのは、偽科学だと言う感覚がないようだ。
「こんなに説明してるのにメカAGはなんで理解しないんだ」とばかり。いや、理解した上でもっと違う話をしてるんだ、と。
ランダム化比較実験(RCT)と言う単語を知っていても、それがモデルの多くの仮定に依存せずに結果を出してくることを知らないと意味が無い。なお、ランダム化に大きな意味があるので、対照実験と言うと科学者に怒られると思われる。
結局現時点ではランダムにしか見えないんだから、ノイズとして扱うしかないじゃん。
何度も繰り返しているが、ノイズしかないと扱えば、月ごとの差が無いことになる。なお、4月が他の月の倍ほど変化するのであれば、標準誤差から99%の確率で一階差分の絶対値の平均の集計値は、集計値の平均よりも大きくなる。実際は7番目と大きく無い。違いが見えないものがあると言い張るのは偽科学の信奉者。
今回の場合は、ノイズ(短期の方向性のない小さな変動)と、もうすこし景気動向に意味がある中・長期的な変動を区別する方法。どうすれば両者を区別できるかを考えた上で、ノイズではなく中・長期的な変動の分布が特定の月に偏ってないことを示す事が必要。
メカAG氏がモデルが大事と言うので、モデルを作ってみよう。nを月とする。短期的な変動をεとする。中・長期的な変動をη(n)とする。η(n)は確率分布でも、ある値でも、その合計でも良い。各月の値ξはε+η(n)となる。η(n)が大きくなるほど、ξの絶対値は大きくなる。中・長期的な変動が特定の月に偏っていれば、差分の絶対値の平均に差が出る。メカAG氏の短期と中・長期を分離する必要があると言う主張はモデル無き情緒でしかない。なお、分析手法が稚拙だから効果が見つけられないと主張するのは、ホメオパシーなどの偽科学の信奉者の特徴。
ほんとにこうなるもんかねぇ…。
凡ミスだが、就業者数のグラフと就業率の差分のグラフを比較している。グラフのタイトルに注意されたし。なお、就業者数の差分のグラフは横軸の表示を訂正しておいた。
どれだけ長期間のデータを集積すれば十分なのか?
特定月の影響力をどう仮定するか、偽陽性と偽陰性の確率をどこまで落とすかで変わる。標準偏差は単月では約17だから、n月分あれば√(17*17*n)/nになり、標準偏差に応じて過誤の確率が変わる。体感してもらったほうが実感が沸くと思うので、1年分と24年分の図と、シミュレーションのソースコードを示しておいたわけだが。なお厳密に階段状を仮定すると特定月以外はゼロになるので、特定月の影響は何倍もあると仮定しても問題ないであろう。
就業者数(季節調整済み)を労働人口(季節調整済み)で割って(これで就業率の季節調整値になるはず)
これも凡ミスだが就業率の分母は労働人口ではなく、15歳以上の人口。また割ってから季節調整をかけた方が誤差が少ない。なお、就業者数/労働人口=1-失業率になる。原数値の方で計算して、完全失業率と比較すれば分かると思う。そう言えば微分と差分は違うので、そちらも注意されたい。
結局こうやって平滑しないと(移動平均など)、意味のある傾向を取り出せない
移動平均で平滑化できるのは、季節調整がされるのと同時に、12ヶ月分の平均になっていて、大数の法則で誤差が小さくなるからである。だから移動平均が意味があるのであれば、季節調整値の集計値も意味があることになる。常にモデルとの対応関係に注意することをお勧めしたい。
追記(2015/02/14 01:22):モデルが大事と言い続けるメカAG氏が、またモデルを考えないで話を展開し出したので、問題点を指摘しておきたい。
グラフを目視すればわかるが中長期的変動というのは20年間で数個しかない。
今回の話でいえば、中長期的変動η(n)が、uncorrelatedが考えるほど大きくない。どうもuncorrelatedは20年ぐらいのデータをとってるから中長期的変動20年*12ヶ月=240個をイメージしているのだろう。そこが間違い。
中長期的変動はほとんど無くその変化量も小さいとなると、実際の雇用量の動きの大半は短期的な変動で説明される事になる。しかし、計量的に構造変化点が掴めないかと言うと話は別になるし、最初からこの場合の計量方法を示している。
構造変化が時点Tに発生したとする。Tは一つしかないとしても、T以前の観測値には構造変化の影響が無く、T以後には構造変化があることになる。構造変化点が少なくとも、比較できる観測値はその前後で多数あるわけだ。
議論の最初のエントリーのグラフを参照されたい。SPLINE REGRESSIONでは5年間で構造変化が1点しかないと仮定している。他のエントリーのAR(1)でもランダムウォークでも1点だ。構造変化点は最尤法、構造変化点の数はA.I.Cで決めることができる。信頼区間も一応、出せる。
なお、議論の最初のエントリーは目視で線を引いていいのかと言う疑問を投げかけるのが目的だった。メカAG氏自信が何度も主張しているが、目視でグラフを観察していると、見たいものが見えてくるもの。統計学はそれを防ぐ有用な道具だ。
一方で現実を相手にしているデータは数に限りがある。だからその点に常に注意を払う必要がある
データに限りがある問題は、「標準偏差は単月では約17だから、n月分あれば√(17*17*n)/nに」と上で観測数から標準偏差がどうなるか、偽陰性の確率がどうなるか説明をしておいた。なお、この辺の議論は「サンプルサイズの決め方」に詳しい。
何はともあれ、メカAG氏が「モデルが大事」と言うのであれば、基礎方程式から定理を演繹していく数理的な議論を常に念頭に置くべきであろう。この一連の議論では、確率的な誤差が基礎方程式になっている。また、「俺のモデルは正しいが現実には現れない」とコメント欄でメカAG氏の論法を揶揄していた人がいたが、科学的な議論であれば主張者がそれを立証すべきもの。4月に雇用の意思決定がされ、それが就業者数に影響していると言うのであれば、メカAG氏が計量モデルを立てて立証すべきであろう。偽科学の信奉者には、荷が重いと思うが。
*1なお二階差分が本当にノイズ(=同一で独立な誤差項)だけで構成されていたら、トレンドに対する月ごとのバイアスは無い事になるので、メカAG氏は自分の主張を自分で否定していることになる。
0 コメント:
コメントを投稿