2013年7月13日土曜日

科学における「モデル」を考える

このエントリーをはてなブックマークに追加
Clip to Evernote
Pocket

「疑似科学ニュース」が科学においてモデル化が重要と主張し続けている。勢い余って、いかなる場合もモデルは必須だとも主張している。

モデルの重要性を否定する気は無いのだが、ブログ主がモデルが何か理解していないような気がして来たので、説明してみたい。理論モデルと計量モデル、そして経験則の見分けがついていないようだ。

1. 理論モデル

理論モデルは、事象を説明する連立方程式体系と言っていいと思う。帰納的に導かれる基礎方程式と、そこから演繹的に導かれる定理の場合がある。例えばニュートン力学の運動の三法則が基礎方程式で、惑星の運動方程式がそれから演繹したモデルと言う事になる。

イメージが沸くように、具体的に数理モデルを一つ提示してみたい。浅水波を表すKdV方程式を見てみよう。1834年に発見された浅水波を、1882年と1895年に下記の偏微分方程式モデルに整理したものだ。

tが時間、xが位置、u(t, x)が波の高さだ。t時点の波で、t+1時点の波を説明している。だから何?と思った場合は、「RでKdV方程式を数値解析でプロットしてみる」を参照のこと。

2. 計量モデル

計量モデルは、推定式と呼ばれる回帰分析に用いる方程式となる。理論モデルを背景を持つ構造方程式の場合と、そうでない単なる誘導型の場合がある。データ種類や用途に応じて様々なバリエーションがあり、統計的検定でどのようなモデルを用いるべきかが選択される。

データ分析にあたりモデルが重要と言ったときに、理論モデルを意識している場合は、構造方程式を推定しろと言う事になる。これは世の中の事が既存モデルから演繹的に想像がつくケースでは有効だ。しかし、既存の理論モデルが無い場合や、間違っている場合は機能しない。

強い仮定をおかない誘導型の計量分析が必要になってくる。ただし実験データでも無い限りは、つまりランダム化比較試験(RCT)が使えない場合は、誘導型の場合も色々と考えて交絡因子のコントロールを試みることになる。

3. 擬似科学ニュースの問題点

理論モデルと計量モデルの整理は前置きで、擬似科学ニュースの議論にある問題点を指摘してみたい。

1. 理論モデル、計量モデル、そして経験則の見分けがついていない
モデルが推定に重要と強調した場合、構造方程式を推定しろと言う意味になって、交絡因子のコントロールが重要と言う話にはならないし、交絡因子に関する経験則をモデルと呼ぶのは用語の乱用であろう。
2. 計量手法に対する無理解や偏見が目立つ
ブログ主が興味関心があるのは計量モデルの方だと思われる。今まで具体的な数理モデルが出てきたことは無いし、構造方程式の重要性については言及されてはいないので、議論されている年齢やカレンダーの影響は、交絡因子の問題だからだ。しかし、交絡因子のコントロールや識別手法について、理解する意欲が薄いように感じる。
コントロール手法としては、上記のランダム化してしまい経験則に頼らず分析するRCTだけではなく、特定の集団の行動の変化を追いかけるコホート分析や、個体にある様々な交絡因子を一括でコントロールできるパネル分析などがある。識別手法としては、分散分析(F検定もこれに含まれる)が代表的かつ有用であろう。
こういう計量手法が紹介されると、ブログ主は有用性を否定し“モデルが必要”の一本槍の議論を展開するわけだが、交絡因子を特定しないで交絡因子をコントロールすると言う一種の技術革新が行われているわけだし、計量モデルに入れる交絡因子の妥当性について口述ではなく数理的な判断ができるわけだから、歓迎すべき技術革新であろう。

「いかなる場合もモデルは必須」と言われても、科学的な分析をした事のある人は返事に困るわけだ。理論モデルを強く仮定しないと構造方程式で無くなるし、RCTやパネル(固定効果モデル)だと交絡因子のコントロールさえしない事も多い*1ので、計量モデルはあるにはあるが、機械的に置いている。

分析手法ごとに長所、短所があるため、科学的分析の妥当性を議論するには、こういう知識は必須となる。「統計学が最強の学問である」のような話になっているが、現代では統計は科学方法論として科学にしっかり組み込まれているので仕方が無い。

追記(2013/07/14 07:50):疑似科学ニュースが同じところをぐるぐると回っているのだが、あえて同じ所を指摘してみたい。まだ数理モデルと計量モデルの区分がついていないようだ。

これまで彼と議論してきて感じることは、彼はあくまで目の前のデータをよく近似できるモデルが良いモデルと考えていること。

「目の前のデータ」の精度が問題にならなければ、計量モデルはモデルの複雑さが同じであれば、誤差を最小化する方が望ましいし、数理モデルもそのように考える。

地動説は20世紀まではニュートン力学で理論的に説明されていたのだが、現在では相対性理論に取って代わられている。相対論の場合は、水星の近日的移動をより良く説明した事で認められたそうだ。100年間で574秒のずれが起きるらしいが、ニュートン力学だと531秒しか説明できないのに、相対性理論だと574秒をきっちり説明できる(EMANの物理学)。

彼の考えの弱点は、1次式で近似すべきか、2次式で近似すべきか、はたまたもっと次数の高い近似式にすべきか、判断できないこと。データのバラつきを誤差と考えるか、説明すべき事象の一部と考えるか。

以前にも説明したが、複雑な計量モデルが採用されるには、十分に誤差を減らす必要がある(関連記事:回帰モデルにおける統計学的な一次式と二次式の選択方法)。高次式が選択されるとは限らない。計量モデルにおいては判断ができる。

計量モデルで高次式が採用さらたからと言って、数理モデルで高次の式を採用しておけばいいかと言うと、そういうわけでもない。ニュートンの冷却の法則などは、一見すると二次式が当てはまりやすい観測データを、差分を取る事で一次式(微分方程式モデル)、そしてそれを積分して指数を使った閉じた式に直している。

計量モデルの選択が機械的であっても、数理モデルの構築がそうでは無いことには注意されたい。ただし、最終的な微分方程式モデルの正確性も、データで裏づけされている。上手く実験しないと上手く当てはまらないみたいだが。

モデルというと誰しも化学の授業で分子モデルを習ったであろう。原子を球に見立てて、そこからニョキッと手が生えている。この手で他の原子と結合を行い、分子を形成する。これは人間のイマジネーションが生み出したものだ。化学反応の経験則から導き出すのは難しい。科学には想像力が必要という良い例。

ルイス構造式のことだと思うが、原子のまわりに八個の価電子が配置された場合に安定という経験則からモデル化されている。1893年にWernerが中心原子の周囲に大抵は4~6、最大で8の粒子がある事を示し、1904年にはRichard Abeggが電子の正負が価数を決定すること、さらに最大の正負の価数が8以下である事を示している。X線回折が1912年で、ルイス構造式が1916年。計量モデルが示す最外殻電子数と安定度から、数理モデルを導出したと考えるべき。

モデルはデータから導き出すものだと考えているようだ。

以前にも紹介したが、ニュートン、ファインマン、南部陽一郎氏は、実験や観測からモデルを導き出すと言っている。上述のKdV方程式も時系列を見ればそうなっているのが分かる。

Hypotheses non fingo(私は仮説をたてない). - Isaac Newton
いつもながら理論物理の教授なんぞというものは、目のつけどころを人から教わらなくてはならないもので、できることといえばただ自分の知識をひねくって、実験屋たちの観察したことを理論的に説明するだけの話なのだ!(P.198) - 困ります、ファインマンさん
実験なしでは物理は進歩できない(P.44)- 南部陽一郎(クォーク第2版

ニュートンが際立って言いすぎなのが分かる(仮説、立てますよ!)。基礎方程式は原理上は帰納的だし、そこから演繹したモデルも実験や観測が先行する事は多い。何はともあれ疑似科学ニュースの論法だと「ファインマンは科学が苦手」になってしまうわけだから、考え方を変えた方が良いのでは無いであろうか。

人間は何をモデルに含めるか自分のイマジネーションを頼りに取捨選択しなければならない。それはデータからは導けないものだ。

数理モデルの構築に想像力がいる事は確かだが、計量分析の結果と矛盾するのであれば無価値。人間は神ではないのだから、観測事象を謙虚に受け止めるべき。

実験や観測データを矛盾なく簡潔に説明できるモデルが望ましいのであって、実験や観測データと矛盾する説(LNT仮説)を科学的に有力と言い切る疑似科学ニュースは、疑似科学的な思考に陥っていないであろうか?

追記(2013/07/15 20:00):「疑似科学ニュース」が、なぜか“RCTが有力”と言うのを、“RCTで無ければいけない”と誤解しているので補足。

| | なんで「もし自分がこの情報を知らなかったら」という仮定で思考実験ができないのか不思議。
| その思考実験をすると、(なぜか疑似科学ニュースは「あなたの理屈」と表現するが)フィッシャーのRCT以外は信じない(=コホート分析による喫煙の害も信じない)に到達するわけだ。
この彼の言葉がすべてを表しているのだろう(だいたいRCTを力説してるのは俺ではなく彼だろうに。支離滅裂)。

一連の議論でRCTを強調しているのは、計量手法ごとに信憑性に差があって、動物実験なり人体実験なりRCTで行われた実験結果は、数理モデルが背景に無くても信憑性が高い。

フィッシャーのように厳格な議論をすると、異議が出やすい思考実験に依存すると言う事自体が、統計手法としては望ましく無い。だから最も望ましいのはRCTとなる。

つまり、RCTの結果に対して、つまり線量率効果を確認しLNT仮説を棄却する動物実験の結果に対して、モデルレスだと批判するのは無理があると指摘している。RCT以外の手法が無意味だと言う意味では無い。

『「月の魔力」を統計学的に批判すると』でも、第二段落でRCTが無理、第三段落で他の手法も無理と説明している。RCTのみが有効ならば、第三段落は要らない。

*1パネル分析の場合、時系列方向にはダミーを入れてコントロールする場合もあるが、個体の固有の交絡因子はコントロールされた状態になるためダミーを入れない。

0 コメント:

コメントを投稿