2015年2月3日火曜日

疑似科学ニュースの雇用に関する認知的不協和をつついてみる

このエントリーをはてなブックマークに追加
Clip to Evernote
Pocket

先日からやり取りしている就業者数に関して、一般の偽科学信奉者と似たような感じで、疑似科学ニュースが認知的不協和を起こし始めた気がするのだが、単に勘違いをしている可能性もあるので、問題と論点を整理して、まだ自説を維持しているかを問いかけてみたい。データ的には同じものを挙げる*1

問題は月次データから一年間のどこで変化があったかを識別できるかで、ブログ主が恐らく想定しているように階段状であれば識別するのは困難だ。だから非季節変動の雇用者数が階段状になっているか否かが論点になる。

視覚的には納得してもらえないので、階段関数の数理的特徴を整理した上で、統計をとって議論してみたい。

1. 階段関数の視覚的特徴

階段関数は視覚的に階段状になるはずだが、ブログ主は無視し続けているが、季節調整値は階段状に見えない。また、ブログ主は判別できないようだが、十二ヶ月移動平均の角が丸くなる。なお、階段関数と季節値が大きく乖離するなんては言っていない。一応、再掲しておくが、季節調整値は階段状になっているであろうか?

まぁ、見た目で理解してもらうのは無理があるようなので、統計をとってみよう。

2. 階段関数の数理的特徴

ブログ主は数式は一切挙げないが、いつもモデルが大事と言い続けているので、階段関数の数理的特性をまず示す。一回差分を取ると、特定月(図ではn月)だけがゼロ以外の値を持つ。これは必要十分条件だ。

3. トレンド変化点が同一月の場合の特徴

階段関数にはならにはずだが、突然「棒グラフの面積を占める大半はおそらく一貫した傾向の時期」と統計を否定(?)しだしてもいるので、n月だけトレンドが変化する場合のモデルも議論しておこう。一階差分をとるとn月までがゼロ、n月以降がゼロより大となる。

なお、トレンド変化点が同一月になっても、その変化点をつかめば良いので、実はこのケースは分析には影響しない。原因が発生した月を探っているわけではなく、就業者数のトレンドが変化した月を探っているだけだからだ。

4. 階段関数とトレンド変化点が同一月の共通特長

上の二つの可能性は実は同時にデータを付き合わせる事ができる。二階差分をとるとn月だけだけがゼロ以外の値を持つ。⊿n月値=n月値-(n-1)月値と定義して、⊿2n月値=⊿n月値-⊿(n-1)月値と言うトレンド変化を観察すれば、この必要条件を満たすかが分かる。

5. 共通特長は満たされていない

変化は増える場合も減る場合もある。だから1991年から2014年までの絶対値の平均で比較しよう。すると再掲になるが、季節調整値で以下のような傾向が得られる。

一年の前半の変化が大きく後半は11月が目立つが、他の月の何十倍も引き離す月はないので、季節調整値が階段関数ではないことが分かる。何割か程度の差しかないので、トレンド変化点が同一月とも言えない。つまり、階段関数の条件も、特定月だけトレンドが変化する条件も満たしていない。

ここから階段関数を理由に月次データから一年間のどこで変化があったかを識別できないとは言えない。また、月次データから一年間のどこで変化があったかを識別しうる情報が含まれていることが分かる*2

6. 中途採用の規模を考えれば自然な結果

疑似科学ニュースのブログ主は、新卒一括入社などの日本の雇用慣習から、雇用水準の変化が断続的になると思いこんでいるので、グラフの特徴も目に入らなかったのであろうし、この統計も受け入れられるかは分からない。しかし、中途入社や離職者は年中発生しているし、「年間の転職者数はおよそ280万人~350万人」で新卒よりも多く、失業者は新卒枠で雇用されないことを考慮すれば、そう違和感は無いと思う。倒産やリストラだって季節性はない。

7. 認知的不協和に陥らないために

数理的に記述されるモデルは、自然言語が誘発しがちな曖昧さが排除されているので、現実との突合せがこのように容易だ。何日も前から、繰り返し階段関数を意図しているのかを聞いていたのは、データとの突合せを可能にする目的であった。

二階差分になっている事は見落としていただけだと思うが、トレンド変化点が同一月の場合を唐突に言い出したのは認知的不協和を引き起こしているように感じる。必ずn月に変化するのであれば、n月が変化点だと推定されるだけのこと。モデルを元に議論する癖をつければ、こういうミスは防げるはずなのだが。

こういう認知的不協和に陥らないために、「モデルが大事」と連呼するだけではなく、もっと数理モデルを考えていく事をお勧めしたい。ミスを防ぐだけではなく、非線型2階微分方程式が分かるようになった先に、見えてくるものもあるはずだ。

追記(2015/02/04 06:20):コメントが返ってきたのだが、どうも大きな見落としがされているようだ。

たとえばもとが階段状のデータでも平滑するなり補間するなりの処理をすれば、角は表面的には丸くなるよね。でも情報量が増えたわけじゃない。

季節調整値の特性は二度もエントリーでグラフをつけて説明しているが、元が階段関数であれば季節調整値も階段関数になる。一応、以下に再掲する。赤線が黒線の上をトレースしてしまっているので分かりづらいが、それだけ階段状態を残している

非季節変動値がn月にしか変化がないなら、移動平均もn月にしか変化しなくなる。これは数学的に自明。

話が戻りがちなので改めて書いておくが、季節調整値が階段関数ではないのは、本文で議論したとおり。疑似科学ニュースのことだから、まだ季節調整値が階段状になっていると信じている可能性はあるが。以下の図の?が階段関数だと未だに信じているかも知れない。上段と下段の月ごとの一階差分の絶対値をみると、全く違う傾向なのだが。

階段状のデータ(たとえば4月だけの雇用)を使って描いたグラフと、結果的にたいして変わらないなら、含まれている情報量もたいして変わらないんじゃないの?

それは識別に十分なデータが無いことを意味しない。誤差項よりも大きな変動があれば、計量分析の結果が出る。y=α+βx+εと言うモデルの、切片項αの部分の大きさは重要ではない。αが大きいと見た目は全て同じに見えるが、t検定の公式が示すように、分析では係数βと誤差項εが問題。モデルが大事と言うならば、計量モデルの特性も考慮して欲しい。

それはつまり原因が発生した月がアベノミクス以前だという予測をしたことになる。

その推論は正しいが、計量モデルと推論部分は分けて考えるべき。計量モデルで掴めるのはトレンド変化があった時点であって、原因はそれ以前と言うのは推論部分。月次データにある情報量と言う議題からは、推論部分の議論は不要であろう。

月単位で差の差(二階微分)をとると大きな変動の成分はほとんど減衰してしまい月単位の細かな変動、すなわちノイズばかり残ってしまうはず

モデルが大事と言うならば、もっと数理的に考えるべき。一階差分であるトレンドに変化があったときに、二階差分は必ず動いている。二階差分がノイズだけであれば、トレンドは永久に同じままになる。年次は別と思うかも知れないが、月次の合計が年次だから。

「意味があるんでしょうかね。ノイズだよね?」となったら、トレンドは一度たりとも転換して来なかった事を意味するランダムウォーク過程と言うことになるが、すると階段関数でもないし、特定月に変化が発生したりもしない(なお、以前のエントリーでも触れているが、ランダムウォーク過程である可能性はある)。

雇用に変化があるのであれば、二階差分のノイズの中に、大きな変動成分が隠れているはずだ。月次データを合計していくとノイズは平均収束していくが、月ごとの変動は平均収束しないので存在すれば差が広がる。だから24年分も足すと差があれば見えることになる。

転職者というのは別な会社に移動するのだから、全体の雇用者数は変わらないよね。

中途採用市場の規模と見るべき。離職後、すぐに再就職できるとも限らない。もう少し具体的な数字で補強すると、原数値で2013年4月から2014年4月は就業者数は2万6000人増加していて、完全失業者は3万7000人減少している。これで規模感が分かるであろうか。なお、こういう説明は「モデル」では無いから勘違いしないように。

*1長期雇用も年間を通して増減している」の追記(2015/02/02 23:19)部分。

*2季節調整値の信頼性については説明したが、トレンド転換点を線型回帰で分析する妥当性の問題が残っているので、含まれている情報が炙りだせるかは別の議論になる。それを説明するかは、疑似科学ニュースのブログ主の理解度を見て決めたい。

0 コメント:

コメントを投稿