この記事では、因果推論における「回帰非連続デザイン (RDD)」について、その概要や適用可能なケース、実施におけるポイントを具体例をもとに解説します。
<目次>
回帰非連続デザインとは
どのような分析手法なのか
「回帰非連続デザイン (Regression Discontinuity Design : RDD)」は、ある基準値を境に処置の対象となるか否かが決まる状況で、基準値を僅かに上回った人と僅かに下回った人の結果から、処置効果を推定する方法です。
処置の有無がある基準値(これを「閾値」と呼びます)に基づいて決定されることが分かっている「疑似実験」と呼ばれる状況において、「その基準値の近辺」では、処置の有無がランダム(無作為)に割り振られていると見なせることを利用して、処置効果の推定を行います。
例えば、低所得家庭における子供の進学を支援する政策として、一定以下の所得の家庭を対象に、進学支援金を支給するケースを考えます。
この時、自治体の財源による制約から、支援金を支給対象は、申し込みのあった家庭について所得金額や親の就労状況、子供の数などの条件を加味し点数化した上で、点数の高さ順に一定数の家庭に限定すると仮定します。この場合、点数の高さ順において支援金の対象となるか否かの境界が「閾値」となります。
ここで、支援金の対象となった家庭と対象とならなかった家庭における子供の進学率を比較して、支援金支給の効果を測定することは適切ではありません。
なぜなら、支援金の対象となった家庭とならなかった家庭では、進学率に影響する可能性のある他の要素(家庭の所得金額や親の就労状況、子供の数など)が異なっていたはずであり、この両者の進学率を単純比較することは、支援金の効果を過少に評価する可能性が高いからです。
一方で、閾値周辺の「ギリギリで支援金の対象となった家庭」と「ギリギリで支援金の対象とならなかった家庭」は、進学率に影響する可能性のある要素がほぼ同じであり、給付金の対象となったか否かは「運次第」であったと考えることが可能です。
つまり、「閾値周辺においては」、処置の有無が「ランダム(無作為)」に決定されていると考えることが可能であり、この性質を利用して処置効果を推定する手法が「回帰非連続デザイン」です。
なお、回帰非連続デザインは「閾値の周辺においては、処置の有無がランダムに決定されている」という性質を利用した手法であるため、これによって推定できる処置効果は「閾値周辺の対象者における平均的な処置効果 (Local Average Treatment Effect : LATE)」であり、施策の対象者全体における処置効果ではない点に注意が必要です。
作成:Intelligence In Society
どのような場合に適用できるのか
回帰非連続デザインは、「ある基準値を境に処置の対象となるか否かが決まる」性質を活用することで、RCTを行うことができない場合でも、以下のようなケースに「閾値周辺における処置効果」を適切に推定することが可能です。
- 生年月日や所得、売上金額など、ある基準値を境として、制度や事業・サービスの対象となるか否かが決まるケース
試験点数によって合否が決まる資格の取得が、対象者のその後の就職や賃金などの社会経済状況に与える影響を推定するケースなどが挙げられます。
この場合、受験者の能力が試験の合否と将来の社会経済状況の双方に影響していると考えられますが、合否の基準点近辺では、合否は試験当日の運次第でランダムに決定され、受験者の能力には差がないと考えることで、処置効果の推定が可能となります。
- ある集団のうち、制度や事業・サービスの対象となるか否かが、先着順などによって決まるケース
一定の条件を満たす対象者に対して、申し込みの先着順で処置の有無が決まるケースなどが該当します。なおこの場合、もし処置の有無が申込者の中から抽選などでランダムに決定される場合には、RCTの適用が可能となります。
- 適用される制度や事業・サービスの内容が、基準値に応じて変化するケース
処置の適用が基準値を境に完全に「1か0か」で決まるのではなく、基準値を境に支給金額やサービスの頻度など処置の内容が変化するケースが該当します。実際の制度や事業においては良く見られるケースであり、「回帰屈折デザイン」と呼ばれる回帰非連続デザインの特殊な形が適用されます。
実際に因果効果の分析に回帰非連続デザインを利用した研究として良く知られたものには、以下のようなものが挙げられます。
- イスラエルの小学5年生における算数のテストのデータを用いて、小学校のクラスの大きさが成績に与える影響を研究した事例1
- 米国の下院議員選挙の結果に関するデータを用いて、現職の議員が非現職の議員に対してどの程度有利なのかを研究した事例2
回帰非連続デザインの実施におけるポイント
回帰非連続デザインに必要な仮定
回帰非連続デザインによる因果効果の推定は、上記に挙げたケースにおいては常に可能な訳ではなく、適切な因果効果の推定を行うために必要な前提(識別性の条件)が存在します。それが、「条件付き期待値の連続性(通称:連続性の仮定)3」です。
「連続性の仮定」は、「仮に処置の有無による違いが存在しなければ、閾値(境界線)の周辺において、結果変数は連続的に変化していた」、ということを意味する仮定です。
先の低所得家庭における子供の進学を支援する政策の例では、
ということに該当します。
なお、この仮定は、「仮に処置の有無による違いが存在しなければ」という実際の事実とは異なる状況(反事実)に依拠していることから、これが成立しているかどうかを実際のデータから証明することはできません。以下に説明する強制変数の分布を可視化することなどを通じて、仮定が成立している可能性を間接的に示す形となります。
「連続性の仮定」が崩れる状況
「連続性の仮定」が崩れるケースの主な要因には、以下の2つが存在します。
①強制変数が操作できる場合
最も典型的なケースは、閾値が事前に知られており、強制変数が操作できるケースです。「強制変数 (forcing variable) 」とは、処置の割り付けを決定する変数のことで4、低所得家庭における子供の進学を支援する政策の例では、「申し込みをした家庭の点数」に当たります。
もし、申し込みをした家庭が、その申請書において、所得金額を実際の金額よりも過少に偽って記載した場合、強制変数である「申し込みをした家庭の点数」の操作が行われている状況となり、回帰非連続デザインによる因果効果の推定値は、妥当なものではなくなります。
なお、強制変数の操作が問題となるのは、「完全な操作」が行われた場合のみと考えられています4。「完全な操作」とは、申し込みを行う家庭が、点数が何点であれば支援金の対象となるか知っており、その点数以上になるように正確に申込書の内容を操作する場合を指します。仮に、閾値における点数が公開されていても、それに対する操作が行われなければ、因果効果の推定において問題となりません。
強制変数に対する操作が行われていないかを確認する方法は、強制変数の分布を可視化し、閾値周辺で連続的な変化が起きていないかを確認することです。仮に強制変数の操作が行われていた場合、閾値周辺の(特に閾値を僅かに上回る)点数に該当する申し込み件数が非連続的に変化(ジャンプ)しているはずであり、この変化を見ることで操作の有無を確認することが可能です。
作成:Intelligence In Society
②他の変数(要因)による影響
連続性の仮定が崩れるもう一つのケースは、結果に影響する他の変数(要因)が、閾値周辺で非連続的に変化していることで発生します。
低所得家庭における子供の進学を支援する政策の例では、例えば、この自治体による政策とは別に、国による子供の進学支援の政策が並行して行われており、この自治体による支援金の対象となった多くの家庭が、同時に国による支援の対象にもなっているケースなどが挙げられます。
この場合、仮にこの自治体による支援金の支給が無かったとしても、閾値周辺における家庭の子供の進学率は非連続的に変化していた可能性があり、「連続性の仮定」が成立しない状況となります。
「連続性の仮定」の成立有無の確認においては、対象の事業やプログラムだけでなく、その事業のターゲット集団と同じ集団に影響を与える他の事業などについても注意する必要があります。
「ファジー」な回帰非連続デザイン
ここまで進学支援金の事例では、支援金の支給対象となった家庭は、必ず支援金を受け取ると仮定してきました。しかし、現実の世界においては、支援金の支給対象となった家庭が辞退したり、支給対象外だった一部の家庭が何からの理由で支援金を受け取る、といった状況も発生します。
このように、処置の割り付けに従わないことを「非遵守 (noncompliance)」と呼びますが、「非遵守」が存在する回帰非連続デザインを、特に「ファジーな回帰非連続デザイン (fuzzy RDD)」と呼びます。これに対し、非遵守が存在しない回帰非連続デザインは、「シャープな回帰非連続デザイン (sharp RDD)」と呼ばれます。
ファジーRDDにおいても、閾値周辺における因果効果の推定は可能です。具体的には、シャープRDDと同様の形で推定された閾値周辺における因果効果を、遵守者の比率(支援金の対象となることで支援金を受け取る人の、全体における比率)で割り戻すことで、実際の因果効果を算出します。
この際、ファジーRDDの推定結果が妥当性を持つためには、処置の割り付け(支援金の支給対象か否か)が操作変数の外生性、関連性、除外制約の3つ仮定を満たすとともに、常に処置の割り付けに従わない「天邪鬼 (defier)」が存在しないことを仮定する必要があります。(除外制約は、支援金の支給対象となることが、実際の支援金の受け取りのみを通じて、進学率に影響を与えることを意味します)
回帰非連続デザインの強みと弱み
回帰非連続デザインの強み
回帰非連続デザインの強みの一つは、閾値周辺においては処置が無作為に割り当てられていると見なせる状況を利用し、「局所的なRCT (ランダム化比較試験)」に近い状態を作りだすことができる点です。これによって、RCTを行わず既に存在するデータを利用した分析によって、高い内的妥当性を持つ因果効果の推定が可能となります5。
また、先の進学支援金の例のような制度や仕組みにおける概念上の境界線だけでなく、地図上の境界など、物理的な境界線にも使用でき、幅広いケースにおいて適用可能である点も、回帰非連続デザインの強みです。
地理的・物理的な境界線を利用した分析には、隣接する地域のうちの片方のみにおいて実施された制度変更の影響や、ある路線を挟む南北のエリアのうち片方のみに発生した出来事の影響の分析などが考えられます。
また、結果変数の分布や、閾値周辺における強制変数の分布などをグラフによって可視化することで、ビジュアルな情報による理解や説明が可能である点も、回帰非連続デザインの強みの一つに挙げられます。
回帰非連続デザインの弱み
一方、回帰非連続デザインの弱みは、既に述べた通り因果効果の推定対象が、「閾値周辺の対象者における平均的な処置効果 (LATE)」であり、施策や事業などによる介入の対象者全体における処置効果ではない点です。
この場合、もし因果効果を知りたい対象が「境界線付近の対象者」であれば問題ありませんが、知りたい対象が対象全体における因果効果の場合、回帰非連続デザインで推定した因果効果を対象全体に対して一般化することはできないため、注意が必要です。
また、先に述べた回帰非連続デザインが成立するための前提である「連続性の仮定」の成立有無について、それ自体を直接データから確認することはできず、強制変数の連続性や結果に影響する他の変数の連続性を確認することで間接的に証明する必要がある点も、回帰非連続デザインの弱みの一つと言えます。
実務においては、これらの強みと弱みを踏まえた上で、対象のケースにおける回帰非連続デザイン使用の是非を判断することが重要となります。
ここまで、因果推論における「回帰非連続デザイン (RDD)」について、その概要や適用可能なケース、実施におけるポイントを解説しました。
本記事に関連するトピックについては、以下のページをご覧ください。
また、因果推論に関する全ての記事は以下のページからご覧いただけます。
参考文献・注記:
1. Joshua D. Angrist, Victor Lavy. (1999) “Using Maimonides’ Rule to Estimate the Effect of Class Size on Scholastic Achievement,” The Quarterly Journal of Economics, Volume 114, Issue 2, Pages 533–575
2. Lee, David S., 2008. “Randomized experiments from non-random selection in U.S. House elections,” Journal of Econometrics, Elsevier, vol. 142(2), pages 675-697
3. 西山慶彦・新谷元嗣・川口大司・奥井亮 (2019) 『計量経済学』有斐閣
4. 高橋将宣(2022) 『統計的因果推論の理論と実装 ― 潜在的結果変数と欠測データ ― 』共立出版
5. 伊藤公一朗 (2017) 『データ分析の力 因果関係に迫る思考法』光文社新書