2016年3月14日月曜日

保育所を拡充すると子持ち女性の就業率は上がるが、出生率は変わらないかも知れない

このエントリーをはてなブックマークに追加
Clip to Evernote
Pocket

インターネットで匿名で書かれた愚痴が国会で取り上げられて話題になっているが、以前も待機児童問題が話題にもなっていたし、国が設置基準を定めて公的援助を行っている認可保育所が不足していると言われて久しい。経済学者や社会学者が色々な分析をしているのだが、その中で保育所を拡充すると女性の就業率は上がらなかったと言う論文が、今年に入ってよく参照されている。

保育所を作っても、祖父や祖母が面倒を見てきた子供を、保育士が面倒を見るだけと言うアイディアは興味深いのだが、研究途上の為だと思うが計量手法に幾つか疑義があったし、論文に書かれている情報が少なくて何が起きているのか釈然としない。そこで、自分で実際に操作変数法と主成分回帰分析で分析を行ってみたのだが、保育所を拡充すると子持ち女性の就業率は上がるが、出生率は変わらないかも知れないと言う結論が得られた。

保育所の拡充が当面の目的を達成することを示唆する一方で、そのための公費支出を正統化しないので、それなり重大な結果だと思う。今の勤労世帯が老齢になったときに、保育所の拡充の結果によって生まれてくる子供に支えてもらえる外部経済を理由に、社会全体で保育所の費用負担をしようと言う話になっているからだ。

1. データセット

子持ち女性の就業率のデータが『統計トピックスNo.74 女性・高齢者の就業状況 -「勤労感謝の日」にちなんで-』にあった2012年のものしか見つけられなかったので、それにあわせて『人工推計』『保育所待機児童数』『社会福祉施設等調査』『労働力調査』から必要なデータをかき集めた。単年データになり固定効果モデルにならず、都道府県ごとにある未知の属性からの影響をコントロールできない事になるため*1、厳密にはある程度の相関係数が求められる事になる。また、観測数が47と少なくなるため、分析方法の選択には慎重さが求められる。

2. 同時性の検討

社会データには同時性(Simultaneity)が入りやすく、保育所と子持ち女性の就業率もこれを含む可能性が高い。保育所を増やすと、子持ち女性が就業しやすくなるのは、当然に思うであろう。一方で、子持ち女性が増えると、自治体は保育所を増やそうとするのも、不自然には感じないであろう。つまり、需要と供給が同時決定されてしまうことによって、誤差項の正規分布ではなくなり、最小二乗法(OLS)では正常に推定ができなくなる。だから同時性が生じていないか検討しよう。

上のグラフは、認可保育園の保育所入所待機児童率と保育士数の増加率の関係を見たものだ。相関係数は0.074とかなり低いが、係数は有意である。需要が供給を上回っていると、供給増加ペースが増える可能性があり、同時性の問題を抱えることになる。相関係数から推定に影響を与えるかは分からない程度だが、念のためにこれをコントロールする推定方法を取ることが望ましい。

3. 説明変数の決定

コントロールするには、操作変数法と呼ばれる推定方法を使うのが教科書的かつ簡便だ。これを行うには、子持ち女性の就業率に影響されない一方で、保育所の規模や充実度を決定する操作変数を見つける必要がある。研究では適切な操作変数を見つけるのが困難な事は多いのだが、今回は20歳から24歳までの都道府県ごとの転入超過率(MER)が良い性質を持っていたので利用する事にする。

上のグラフの通り、20歳から25歳までの年齢層の転入超過は、保育所の状況を悪化させている。若年人口の増加圧力は、地方自治体の保育所の整備能力の限界をもたらすのであろう。逆に、昨今の出産年齢の分布から考えて、20歳から25歳までの若者の多くが、子供の養育時を考えて居住地を決めている事は考えづらい。子持ち女性の就業率が、この年代の転入超過率に影響している可能性はとても低い。

転入超過率を使って操作変数法で推定を行ってみるが、他の変数について説明をしておこう。被説明変数は「25~44歳の育児をしている女性の都道府県別有業率」(WMR)、説明変数は0歳から4歳までの児童の保育所入所率(U4ER)*2、母親の平均年齢(MAGE)、父親の平均年齢(FAGE)、男性有業率(MOP)、失業率(UR)だ。内生変数はU4ERだけにして、丁度識別とし過剰識別の問題を回避する。

変数は先行研究を真似ただけだが、データ入手の経緯で少し違うものになっている。何の代理変数なのかは先行研究でも明示されていない気がするのだが、あえて書くと、MAGEとFAGEは年齢による固定観念や経済的状況を表し、MOPは父親の経済的状況や家庭内での地位を表し、URは経済的状況を表すと考えられ、代理変数として重複が多い。多重共線性に悩まされる事になるが、これについては後述する。

4. 操作変数法の結果

分析結果は以上の通りで、U4ER、つまり0歳から4歳までの全人口の保育所入所率が高まると、WMR、つまり女性の有業率が高まる事になる。Breusch-Pagan検定で確認する限り、不均一分散はあるとは言えなかった。ところで、わざわざ操作変数法(正確には二段階最小二乗法)を使ったのだが、DWH検定が棄却されないと言う事態が発生した。つまり、今回の推定において、同時性の問題は大きな影響を与えていない。これによって分析手法の選択肢が広まる事になる。一方、説明変数からU4ERを抜いて頑強性をテストしたところ、失業率(UR)に有意性が出る事になった。符号がひっくり返るほどではないが、十分に頑強とは言えない。多重共線性の問題が残る。

5. 主成分分析で多重共線性を解決

多重共線性の解決方法は、観測数をとにかく大きくすると言うのが気軽なのだが、今回はデータセットの制約から出来ない。そこで主成分分析で説明変数をまとめなおし、それで主成分回帰分析(PCR)分析を行う事にする*4。操作変数法の結果から、同時性の影響も少ないと見なせるので、チェックしないといけない事もほとんど無い。

主成分分析は内生/外生両方の説明変数を用いて行い、9割以上の分散を説明できる第三成分までをPCR分析に用いる事にした。また、prcomp関数のscaleオプションをTRUEにして、相関係数行列の固有値を利用した*3。回帰分析の部分は、OLSを用いている。

以上はその結果なのだが、自由度調整済み重相関係数は0.703と高く、係数の有意性は0.1%未満と非常に高い。各成分を一つづつ抜いて推定を行っても、符号は変化せず、有意性も維持されたので、頑強性は非常に高いと言える。説明変数として使われている三つの成分の説明は以下にする。

各成分の社会科学的な意味づけを分析者が行わないといけないので恣意性が残るのが残念なところだが、上の表を見ながら考えてみた。第1成分(PC1)は転入超過率(MER)が大きくマイナスになっており、地方である程度(RURAL)を示していると考えられる。第2成分(PC2)は失業率(UR)が大きくプラスに、男性有業率(MOP)が大きくマイナスになっているので、雇用環境の悪さを程度(BLENV)を示していると考えられる。第3成分(PC3)は4歳までの児童の保育所入所率(U4ER)と保護者の年齢(MAGE、FAGE)の影響が大きいため、育児サービスの充実度(CCENV)と考えてよいであろう。ただし、保護者の平均年齢が高いことが、高齢になっても養育しやすい環境を意味するのかは定かではない。

田舎(RURAL)な方が、子持ち女性でも働きやすい。雇用が悪い(BLENV)と働きづらい。育児サービスが充実している(CCENV)と、働きやすい。PCR回帰が示唆するのはこんな所だが、皆様の直観に適合しているであろうか。なお、操作変数法の分析結果と整合的であるので、そう無理な解釈はしていないはずだ。

追記(2016/03/25 11:28):0歳から4歳までの児童の保育所入所率(U4ER)の被説明変数(25~44歳の未就学児の育児をしている女性の有業率)への効果量を計算してみたのだが、操作変数法の結果と大きく異なり0.07515498(標準誤差0.004988432)と主成分分析では小さな係数となった。保育所入所率を100%にするには0.5程度の引き上げが必要だが、有業率は3.76%程度しか上昇しない事になる。

6. 主成分分析で合計特殊出生率を説明

RURAL、BLENV、CCENVの3成分を、合計特殊出生率(TFR)への回帰に使ってみた。

自由度調整済み重相関係数は0.3508と、分析に必要な変数が欠けて偏りが入っている(omitted variable bias)可能性は否定できないが、ある程度の傾向は示していると考えられる。地方にいるほうが子供を持ちやすい事は言えるであろうし*5、育児サービスの充実が妊娠出産を促進しそうにないことも言えるであろう。P値は0.939と、ちょっとやそっとの説明変数の追加で有意な水準に行きそうには無い。係数も、就業率促進効果と比べて30分の1に留まっている。

なお、合計特殊出生率(TFR)と4歳までの児童の保育所入所率(U4ER)の間の同時性を無視して良いかは疑念が残る所があったので、転入超過率(MER)と他の説明変数を用いてU4ERの予測値を作成し、その予測値から主成分分析回帰も行ったのだが、上の推定結果とほぼ同じ結果が得られている。

7. まとめ

限られたデータで何とか分析を回しているところもあるので、残念ながら信憑性に強い自信があるとは言い難いのだが、保育所を拡充すると子持ち女性の就業率は上がるが、出生率は変わらない可能性が少なくないとは言えると思う。外部経済で公費支出を正統化するのは無理かも知れない。もちろん2012年のデータだけで、確定的な主張はできない。もっと観測数があれば、合計特殊出生率の方も信頼のおける結果になったと思うのだが。

*1何にでも固定効果モデルを当てはめれば良いと言うことはなく、Hausman検定、Lagrange-Multiplier検定、Breusch-Pagan検定などを行って妥当性を確認する方が厳密だ。また、固定効果が変化しうる長期時系列データでは差分GMMにした方が望ましいし、固定効果と説明変数が多重共線をして妙に相関係数が0.97のように妙に高くなるケースでは避けた方が良いであろう。

*2話題の論文では6歳未満になっていたので、それに準じたかったのだが、人口推計の年齢別人口が5歳区切りであったため、4歳以下とした。

*3統計解析パッケージとその関数の種類によって、デフォルトの分析オプションは色々と異なるそうだ(Rのprcomp関数で主成分分析をするときの注意点 - StatsBeginner: 初学者の統計学習ノート)。

*4主成分回帰分析を使ったのは今回が初なので、何か勘違いをしているかも知れない。

*5なお、予備的に、被説明変数をTFRにしてIVの推定を行ってみたが、DWH検定では操作変数が有意に違いをもたらしていると言えない一方で、IVとOLSでU4ERの有意性が変わる状況になった。IVの方を採用すれば、効果は無い。OLSの方を採用すればU4ERはTFRを増やすのだが、U4ERは主成分分析では地方度を表している側面もあるので、そちらの効果が現れていると考えられる。

0 コメント:

コメントを投稿