この記事では、「統計的因果推論」について、その意味や理論的前提の触れた上で、特に社会課題領域における活用を想定し、各手法の要点や適用が可能なケースについて解説します。
なお、因果推論の基本的な概念等についての詳細は、こちらのページをご覧ください。
<目次>
因果推論の理論的な前提
因果推論の意味と目的
「因果関係」とは、ある要因Xを変化させることによって、他の要因Yも変化する、ということを指します。「統計的因果推論」は、データを用いた統計分析によって、この因果関係を明らかにすることを意味します。
物事の因果関係を正しく把握することは、あらゆる実務や科学の領域において極めて重要です。しかし、要因間の関連が、偶然生じたものや単なる相関関係ではなく、「確かに因果関係である」ことを示すには、相応の理論的枠組みに沿った検討が必要であり、その理論的枠組みに該当するのが因果推論です。
要因Xと要因Yの間に因果関係が存在する、別の表現をすれば「(他の要因による影響ではなく)要因Xを変化させることによって、要因Yが変化する」ということを、実際のデータを用いて示していくための理論と手法を提供する枠組みと理解することができます。
潜在結果モデルとRCT(ランダム化比較試験)
因果推論における代表的な考え方に、「反実仮想」というものがあります。これは、上記の例で言えば、「(仮に)要因Xが変化しなければ、要因Yも変化しなかった」という表現によって、実際には観測されなかった「反事実」について考えることで、因果関係を明らかにするアプローチです。
この考え方に基づく因果推論の理論的枠組みが、「潜在的結果モデル」(potential outcome model)と呼ばれるものです1。潜在的結果モデルは、実際には変化した要因Xについて、「要因Xが変化しなかった場合」という『反事実』を仮定し、「(他の要因は全て同じ前提で)仮に要因Xが変化しなかった場合、要因Yがどうなっていたか」という『潜在的結果』を考えることで、要因Xと要因Yの因果関係を推測する考え方です。
「反実仮想」による因果関係の特定には、重大な問題があります。それは、処置の対象である要因Yについて、要因Xが変化した場合の結果と、要因Xが変化しなかった場合の結果を「同時に」観測することはできないということであり、これを「因果推論の根本問題」と呼びます2。
この問題に対する最良の解決策が、「ランダム化比較試験(RCT)」と呼ばれる手法です。「因果推論の根本問題」のもとでは、一個人や一個体について処置効果を測定することは不可能ですが、複数の個人や個体から成る「グループ」における「平均的な処置効果(Average Treatment Effect)」を測定することは可能と考えられます。
RCTは、2つのグループの対象者を選ぶ際に、その対象をランダム(無作為)に割り振ります。ランダムに割り振ることによって、(一定以上の対象者数があれば)2つのグループが統計的に同質の集団となり、2つのグループの結果の差を、処置の有無によるものと特定することが可能となります。
例として、「ある学習塾への入会」の「高校受験の結果」に対する因果関係を知りたい場合を考えます。仮に学習塾への入会の有無をランダムに割り振ることができ、(「入会なし」に割り振られた生徒が自主的にそれを補う行動を取らない前提で)入会の有無以外の点において2つのグループが同質の集団となれば、両グループの高校受験の結果の差を、入会の有無によるものと判断することが可能となります。
作成:Intelligence In Society
各手法の要点と適用可能ケース
RCTは適切に実施できれば、因果関係の特定において非常に有効な手法です。しかし、特に社会科学領域においては、RCTの実施に必要な労力や費用、対象者をランダムに割り振ることに伴う倫理的な問題などから、実施が難しいケースも多いのが現実です。
一方で近年、RCTが適用できないケースにおいても、因果関係の推定を可能にする様々な手法が開発されています。以下では、これらの各手法について、その要点と適用可能な具体的ケースについて解説します。
①回帰非連続デザイン
どのような手法なのか
ある基準値を境に処置の対象となるか否かが決まる状況で、基準値を僅かに上回った人と僅かに下回った人の結果から、処置効果を推定する方法です。
処置の有無がある基準値(これを「閾値」と呼びます)に基づいて決定されることが分かっている「疑似実験」と呼ばれる状況において、「その基準値の近辺」では、処置の有無がランダム(無作為)に割り振られていると見なせることを利用して、処置効果の推定を行います。
例えば、低所得家庭における子供の進学を支援する政策として、一定以下の所得の家庭を対象に、進学支援金を支給するケースを考えます。この時、自治体の財源による制約から、給付金を支給するのは申し込みの先着順に1000件の家庭に限定すると仮定します。ここで、給付金の支給を受けた家庭と支給から漏れた家庭の進学率を比較して、給付金支給の効果を測定することは適切ではありません。
なぜなら、先着上位1000番(=閾値)までに申し込みを行って支給の対象となった家庭は、そうではなかった家庭に比べて、子供の進学に対する希望の強さや、家庭の経済的な困窮の度合いなどが異なっていたはずであり、この両者の進学率を単純比較することは、給付金の効果を過大または過少に評価することになるからです。
一方で、閾値周辺の「ギリギリで給付金の対象となった家庭」と「ギリギリで給付金の対象とならなかった家庭」は、進学への希望度や経済的な困窮度合いといった点においてほぼ同じであり、給付金の対象となったか否かは「運次第」であったと考えることが可能です。
つまり、「閾値周辺においては」、処置の有無が「ランダム(無作為)」に決定されていると考えることが可能であり、この性質を利用して処置効果を推定する手法が「回帰非連続デザイン」です。
なお、回帰非連続デザインは「閾値の周辺においては、処置の有無がランダムに決定されている」という性質を利用した手法であるため、これによって推定できる処置効果は「閾値周辺の対象者における処置効果」であり、施策の対象者全体における処置効果ではない点に注意が必要です。
作成:Intelligence In Society
どのようなケースに適用できるのか
回帰非連続デザインは、「ある基準値を境に処置の対象となるか否かが決まる」性質を活用することで、RCTを行うことができない場合でも、以下のようなケースに「閾値周辺における処置効果」を適切に推定することが可能です。
- 生年月日や所得、売上金額など、ある基準値を境として、制度や事業・サービスの対象となるか否かが決まるケース
試験点数によって合否が決まる資格の取得が、対象者のその後の就職や賃金などの社会経済状況に与える影響を推定するケースなどが挙げられます。
この場合、受験者の能力が試験の合否と将来の社会経済状況の双方に影響していると考えられますが、合否の基準点近辺では、合否は試験当日の運次第でランダムに決定され、受験者の能力には差がないと考えることで、処置効果の推定が可能となります。
- ある集団のうち、制度や事業・サービスの対象となるか否かが、先着順などによって決まるケース
上記の事例で挙げた、一定の所得水準の家庭を対象に、申し込みの先着順で進学支援金を給付するケースなどが該当します。なおこの場合、もし給付の有無が申込者の中から抽選などでランダムに決定される場合には、RCTの適用が可能となります。
- 適用される制度や事業・サービスの内容が、基準値に応じて変化するケース
処置の適用が基準値を境に完全に「1か0か」で決まるのではなく、基準値を境に支給金額やサービスの頻度など処置の内容が変化するケースが該当します。実際の制度や事業においては良く見られるケースであり、「回帰屈折デザイン」と呼ばれる回帰非連続デザインの特殊な形が適用されます。
②差の差法(パネルデータ分析)
どのような手法なのか
同じような特性を持つ2つのグループのうち、一方のグループのみに処置が行われ、もう一方のグループには行われない状況において、2つのグループの時系列データを用いた比較に基づいて処置効果を測定する方法です。
処置の対象者が、ランダム(無作為)に選ばれている訳でも、「回帰非連続デザイン」の場合のように、ある明確な基準をもとに決定されている訳でもなく、政策決定者や対象者自らの意図によって決まるようなケースにおける処置効果の推定を可能にします。
例えば、ある新型モビリティの地域への導入が、地域経済の活性化に与える影響を推定するケースを考えます。この場合、新型モビリティを導入した地域と導入しなかった地域を比較して、導入の効果を測定することは適切ではありません。
なぜなら、新型モビリティを導入した地域は導入しなかった地域に比べて、もともと地域の活性化に積極的で他にも多様な施策を実施している、地域経済の低迷により苦しんでいる、などの可能性が考えられ、両地域の結果を単純に比較することは、新型モビリティ導入の効果を過大または過少に評価することになるからです。
「差の差法(パネルデータ分析)」は、処置を受けたグループと受けなかったグループに関する複数期間のデータを用い、「もし仮に処置がなかった場合、2つのグループの平均的な結果は平行に推移していた」ということを意味する『平行トレンドの仮定』を置くことで、両グループの処置前後におけるトレンドの差から処置効果を推定します。
重要な点は「平行トレンドの仮定」が成立することを説得力を持って示せるかどうかですが、実際には、2つのグループの結果変数の単純な比較により「平行トレンドの仮定」を満たす状態を得られることは多くありません。分析においては、共変量や固定効果といった要素への対処を通じて、できる限り平行トレンドの仮定が満たされる状態を目指します。
作成:Intelligence In Society
どのようなケースに適用できるのか
「差の差法(パネルデータ分析)」は、「平行トレンドの仮定」が満たされる状態を利用することで、RCTや回帰非連続デザインなどの手法が行えない場合でも、以下のようなケースにおいて処置効果の推定が可能です。
- 実施者や対象者の意図などに基づいて、特定の個人や組織・地域等の集団に対して政策や事業が行われるケース
上記の新型モビリティによる地域活性化への影響の他、一部の学校において行われた教育プログラムの効果や、ある出来事が特定の属性の個人(神奈川県に住む40代男性など)に与えた影響を推定するケースなどが該当します。
代表的な事例には、米国の一部州における最低賃金の引き上げが、ファーストフードチェーンの雇用に及ぼした影響を分析したものなどがあります3。
- 上記のうち、政策や事業などの開始タイミングが、対象者によって異なるケース
特定の政策や事業の適用が、対象となる個人や組織・地域に対して一斉に開始されるのではなく、異なるタイミングで開始される場合においても、タイミングの違いに対する調整を行うことで、処置効果の推定が可能です。
予算の関係から、各学校における教育プログラムが複数年度に渡って順次導入された場合などが該当します。
③合成コントロール法
どのような手法なのか
「差の差法」の特殊なケースとして、処置を受ける対象が単一または少数であり、処置を受けない対象が複数存在する場合に、処置を受けない対象の時系列データをもとに「処置を受ける対象が、仮に処置を受けなかった場合の結果」を予測し、それを実際の結果と比較して処置効果を測定します。
「差の差法」では、処置を受ける対象、受けない対象がともに一定数以上存在している場合に、両グループのそれぞれの平均的な値をもとに「平行トレンドの仮定」を置いて処置効果の推定を行いました。一方で、「合成コントロール法」は、処置を受ける対象が単一または少数でも、処置効果の推定を可能にする方法です。
例えば、「日本が独自に導入した観光促進政策」の効果を測定する場合、処置を受ける対象が「日本国」のみで単一のため、「処置あり/なしの各グループにおける平均的な結果」に関する平行トレンドの仮定を満たすことが出来ません。
また、政策導入前後の結果を単純に比較することは、観光需要がマクロな経済環境など他の要因の影響を強く受けるため、適切な処置効果の推定となりません。
合成コントロール法は、日本に類似した複数の諸外国の時系列データをもとに、「仮に日本が独自の観光促進政策を導入しなかった場合」の観光需要の推移を『合成日本』として予測し、それを実際の観光需要の推移と比較することで、処置効果の推定を行います。
作成:Intelligence In Society
どのようなケースに活用できるのか
「合成コントロール法」は、単一または少数の対象に対して処置が行われた場合に、処置を受けていない対象の時系列データをもとに「仮に処置がなかった場合の結果」を予測することで、以下のようなケースにおいて処置効果の推定を可能にします。
- 実施者や対象者の意図などに基づいて、単一または少数の個人や組織・地域等において政策や事業が行われたケース
上記事例の日本における観光促進政策の他、「特定の自治体で試験導入した自殺防止プログラム」や「特定の企業で導入した離職防止対策」の効果を推定する場合などが挙げられます。
代表的な事例には、カリフォルニア州におけるタバコ規制導入が、同地域におけるタバコの売上に及ぼした影響を分析したものなどがあります4。 - 自然災害の発生や感染症の流行など、突発的なイベントが単一または少数の対象に生じたケース
特定の都道府県に大きな被害を与えた災害が地域人口へ及ぼす影響や、ある有力な地場企業の倒産が地域の雇用へ及ぼす影響を推定する場合などが該当します。
④操作変数法
どのような手法なのか
「操作変数法」は、要因Yに影響を与える要因が要因X以外にも存在し(要因Z)、要因Zによる影響を要因Xによる影響と区別して観測することが難しい場合に、要因Zとは無関係に発生した「外生的なショック」を利用して処置効果を測定する手法です。
- 外生的なショックは要因Zと相関がない
- 外生的なショックは要因Xと相関し、要因Xを通じてのみ要因Yに影響する
という2つの条件が成立する場合に、外生的なショックによる要因Xと要因Yの変化から、要因Xの要因Yへの効果の推定が可能となります。
例えば、失業者を対象に就職支援の活動を行うNPOにおいて「就職力UPセミナー」を開催するケースを考えます。この時、セミナーの参加者と不参加者の就職成功率を単純比較することは、セミナー参加の効果を測定する方法として不適切です。なぜなら、セミナーへの参加有無は、対象者の就職に対する意欲や対人能力など、就職成功率に影響する要因と相関している可能性が高いからです。
ここで、受講希望者をランダムに2つの開催日に割り振ったところ、片方の開催日で会場の予定外の設備点検のため、直前になって開催日が変更になったとします。
するとこの時、開催日を変更したセミナーの予定参加者の①「参加率の変化(=ショックによる要因Xの変化)」と②「就職成功率の変化(=ショックによる要因Yの変化)」を、予定通り開催されたセミナーの予定参加者の結果と比較して算出し、②を①で割ることで、「セミナーへの参加」が「就職成功率」に及ぼす効果の推定が可能となります。
ここでは、「予定外の設備点検による開催日の変更」という要因が、外生的なショックである『操作変数』となっています。この操作変数は、対象者の就職に対する意欲や対人能力などとは無関係であり、「セミナーへの参加率」を通じてのみ、結果変数である「就職成功率」に影響を与えることから、上記2つの条件を満たすことが分かります。
実際の適用に当たっては、上記2つの条件が成立することをデータから証明することはできず、分析者自身が説明し、関係者の納得を得る必要があります。この説明の質が、分析の成否・妥当性を大きく左右するポイントとなります。
作成:Intelligence In Society
どのようなケースに適用できるのか
「操作変数法」は、偶然生じた出来事などが、要因Xを通じて間接的に要因Yの結果に影響を与えるケースにおいて、その出来事が「要因Zと相関がない」「要因Xと相関し、要因Xを通じてのみ要因Yに影響する」という2つの条件が成立する場合に、処置効果の推定を可能にします。
代表的な事例には、冷戦期の東ドイツにおいて、地形によって家庭に届くテレビ電波の強さに違いがある点を「操作変数」として利用し、テレビを通じて発信される西欧(西ドイツ)の文化が、東ドイツ市民の社会主義体制に対する不満と体制崩壊に与えた影響を分析したものなどが挙げられます5。
しかし、成立条件を満たすケースを見つけることは必ずしも容易ではなく、上述の他の手法に比べて操作変数法の活用頻度は高くありません。その一方で、操作変数法は、RCTや回帰非連続デザインなど他の手法において、「本来は処置対象となる人が、実際には処置を受けない(またはその逆)」ことを意味する『不順守』の問題への対処手段として高い利用価値があります。
RCTなどの手法の実施において、不順守の問題は高い頻度で発生し、処置効果の推定に重大な影響を及ぼします。この問題に操作変数法を適用することで、不順守が発生した場合においても適切な処置効果の推定が可能となります。
⑤傾向スコア分析
どのような手法なのか
「傾向スコア分析」は、RCTは実施できないものの、結果に影響を与える主な要因があらかじめ分かっている場合に、処置を受けるグループと受けないグループの間でそれらの要因に関してバランスが取れた状態を作り出すことで、処置効果を測定する手法です。
より具体的には、結果に影響を与える複数の要因に関するデータをもとに、「各対象者が処置を受ける傾向性(確率)」を表す1つの合成変数(=傾向スコア)を作成することで、傾向スコアが同じ対象者の間では、結果に影響を与える要因がバランスされた状態を作り出します。
これにより、傾向スコアの各値における両グループの結果の差を、処置の有無によるものと推定することが可能となります。対象者全体における処置効果は、傾向スコアの値をもとに重み付けなどの調整を行うことで算出されます。
例えば、回帰非連続デザインの解説で例に挙げた、低所得家庭における子供の進学を支援する政策として、一定以下の所得の家庭を対象に進学支援金を支給するケースを再度考えます。なお、支給対象は無作為や先着順ではなく、申請者の情報に基づいて恣意的に選ばれたとします。
この場合、「支援金の支給対象となるか否か」と相関する要因は、「子供の進学率」とも相関している可能性が高いため、支援金の支給を受けた家庭と受けなかった家庭の子供の進学率を単純比較することは、支援金の支給が進学率に与える効果の測定として不適切です。
ここで仮に、子供の進学率が、家庭の所得金額、親の最終学歴、居住エリアの進学率、子供の学業成績、の4つの要素でほぼ説明可能であることが分かっているとします。
この時、これら4つの要素に関するデータをもとに、分析対象の全ての家庭について「支援金の支給対象へのなりやすさ」を表す傾向スコアを算出することで、同じスコアの値を持つ家庭における結果の差を、支援金支給の有無によるものと判断することが可能となります。
本来、4つの要素全てが同じ家庭のペアを見つけることは容易ではありませんが、傾向スコアという1つの数値に集約することでそれを容易に実現できる点が、傾向スコア分析の強みであると言えます。
作成:Intelligence In Society
どのようなケースに適用できるのか
傾向スコア分析は、各対象者が処置を受ける確率を傾向スコアで表すことで、傾向スコアが同じ対象者の間では処置の有無がランダム(無作為)に決定されている、とみなせることを利用して、処置効果の推定を行う手法です。
上に挙げた例のように、政策や事業などの処置が目的とする結果に影響を与える「処置以外の」要因として、年齢・学歴・年収・性別といった具体的な要因が特定されているケースで有効な推定方法です。
一方で、結果に影響を与える主な要因の全てが傾向スコアに集約されていない場合、推定結果が誤ったものとなる可能性があり、そのような脱落要因がないことを説得力を持って説明することが必要となります。
その点から、ある結果の発生する構造が既にある程度解明され広く認知されているテーマや、分析者自身が長年の経験から、結果に影響する要因について深い実践知を持っているテーマなどに傾向スコア分析を活用することで、精度の高い処置効果の推定が可能になると言えます。
ここまで、統計的因果推論の各手法について、社会課題領域における活用を想定し、その詳細や適用が可能なケースについて解説しました。
これらの手法の実務への適用には、一定の専門知識が必要ですが、各手法のポイントを理解し、どのようなケースにおいて因果関係の推定が可能になるかのイメージを持つことは、実務への適用を検討するにあたって非常に重要です。
因果推論に関する全ての記事は、以下のページからご覧いただけます。
また、本記事に関連するトピックについては、以下のページをご覧ください。
参考文献・注記:
1. Rubin, D. B. (1974) “Estimating causal effects of treatments in randomized and nonrandomized studies,” Journal of Educational Psychology, 66(5), 688–701
2. Holland, Paul W. (1986) “Statistics and causal inference,” Journal of the American Statistical Association, Vol. 81, No. 396, 945-960
3. David Card and Alan B. Krueger. (1994) “Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania,” American Economic Review, American Economic Association, vol. 84(4), 772-793
4. Alberto Abadie, Alexis Diamond, Jens Hainmueller. (2010) “Synthetic Control Methods for Comparative Case Studies: Estimating the Effect of California’s Tobacco Control Program,” Journal of the American Statistical Association. June 1, 2010, 105(490): 493-505.
5. Kern, H. L., and J. Hainmueller. (2009) “Opium for the Masses: How Foreign Media Can Stabilize Authoritarian Regimes,” Political Analysis 17: 377-399.