この記事では、因果関係を考える上で課題となる「交絡因子」について、その意味と、各種の変数との関係性、因果関係の推定における考え方を、具体例をもとに解説します。
<目次>
「交絡因子」の意味
適切な因果関係の推定において障害となるものの一つに、「交絡因子 (confounder)」があります。交絡因子は一般的に「処置(介入)と結果変数の両方と関連している要素」のことを指します1。
交絡因子は、処置と結果の両方と関連しているため、交絡因子に適切に対処せずに因果関係の推定を行った場合、選択バイアス (selection bias)などを引き起こし、適切な因果関係の推定における妨げとなります。
また、回帰モデルなどによって因果効果を推定する際に交絡因子が存在すると、モデルの誤差項に、説明変数と相関を持ち被説明変数に影響を与える要素が含まれることで、推定結果にバイアスが生じます。これを「欠落変数バイアス」と呼びます2。
「交絡因子」は、より具体的には以下のように定義されてきました。
- 処置と関連している
- 処置を条件付けても結果と関連している(処置とは独立に結果と関連している)
- 処置と結果の間の経路上にない(処置→結果のメカニズムの一部ではない)
ただ、因果関係の推定において、上記の定義をもとに交絡因子を特定し、推定モデルに含めることで統制した場合に、推定結果に望ましくない影響を及ぼすケースが存在することが知られており(後述)、上記の定義は全てのケースにおいて当てはまるわけではない点を認識しておく必要があります。
各種の変数との関係性
交絡因子がどのようなものであるかを理解するには、他の主な変数の意味を確認した上で、それらとの相違点を把握することが役に立ちます。
共変量
「共変量 (covariate)」は、「結果変数に影響する変数の中で、処置の影響を受けていない変数」を意味します。ここから分かるのは、共変量はその定義の中に交絡因子を含んでおり、交絡因子は共変量の一種であるということです。共変量のうち、結果変数と処置変数の両方に影響するものが特に「交絡因子」と呼ばれます。
例えば、ある「学習塾への入会」の「志望校への合格」に対する因果関係を知りたいケースを考えます。この場合、生徒の元々の学力の高さや、学校や家庭など学習塾以外での勉強といった要素が、処置である「学習塾への入会」と結果変数である「志望校への合格」の両方に影響している可能性があり、「学習塾への入会」の有無による結果の違いを、そのまま「学習塾への入会の効果」と捉えることはできません。
ここでの「生徒の元々の学力の高さ」「学校や家庭など学習塾以外での勉強」が、交絡因子に該当します。一方、例えば「生徒の受験当日の体調」は、結果変数である「志望校への合格」に影響しますが、処置変数である「学習塾への入会」には影響を与えず、その影響も受けていません。この場合の「生徒の受験当日の体調」が共変量に該当します。
この違いは、有向非巡回グラフ (DAG: Directed Acyclic Graph)を使い視覚的に確認することでより明確になります。DAGは、方向を持つ(=有向)矢印で構成された、ループしない(=非巡回)ダイアグラムです。
交絡因子Cからは、処置変数Tと結果変数Yの両方に対して矢印が出ており、両者に影響を与えていることが見て取れます。一方、共変量Xからは、結果変数Yに矢印が出ているのみで、処置変数Tとの間に矢印は存在していません。
作成:Intelligence In Society
中間変数(媒介変数)
「中間変数 (mediator)」は、「結果変数に影響し、処置の影響を受けている変数」を意味します。結果変数に影響する点は交絡因子や共変量と同じですが、処置の影響を受けている点がこれらの変数との違いです。
先に述べた交絡因子の定義の中に、「3. 処置と結果の間の経路上にない(処置→結果のメカニズムの一部ではない)」という条件が含まれていましたが、これは中間変数ではないことを意味するものと考えられます。
先の学習塾の事例では、例えば、「生徒の学習塾への出席率」は、処置である学習塾への入会が、志望校への合格という結果変数に影響を与える経路上にあり、中間変数に該当すると考えられます。
中間変数は、DAGでは以下のように表すことができます。
作成:Intelligence In Society
操作変数
「操作変数 (instrumental variable)」とは、「処置とは関連があるが、結果変数に影響を与えるその他のすべての要因と関連がない変数」を意味します3。
より詳細には、以下の3つの仮定を満たすものとされています。
- 観測されていない交絡因子と関連がない:外生性(→参考:外生変数)
- 観測されている共変量(処置)と関連がある:関連性
- 処置のみを通じて結果変数に影響を与える:除外制約
操作変数がどのようなものであるかは、DAGによって視覚的に確認することでよりクリアに理解できます。操作変数IVは、未観測の交絡因子Uと関連がない一方、処置Tと関連し、処置Tを通じてのみ結果変数Yに影響を与えます。
作成:Intelligence In Society
代理変数(代理交絡因子)
「代理変数 (proxy variable)」は、「その影響を統制したいが観測できない交絡因子と関連があり、実際に観測のできる変数」を意味します4。「代理交絡因子」などと呼ばれることもあります。
先の学習塾の例で言えば、生徒の学力を直接的に観測することは難しいですが、「学力テストの結果」は観測することができ、生徒の学力と強い関連があると考えられるため、学力に対する「代理変数」になり得ると想定されます。
先の例において、「生徒の元々の学力」が処置と結果変数の間の因果関係における交絡因子となっており、その影響を統制したい場合、「生徒の元々の学力」を直接観測することは難しいことから、観測可能な「生徒の学習塾入会前の学力テストの結果」を代理変数として統制することが考えられます。
作成:Intelligence In Society
因果関係の推定における考え方
VanderWeeleによる「交絡因子選択の原則」
ここまで、様々な変数の種類について、その意味や交絡因子との関係性を見てきましたが、実際の因果関係の推定において、これらの変数に対してどのように対処すれば良いのでしょうか。これについて、簡潔な基準を提示したのが、VanderWeele(2019)による「交絡因子選択の原則 (Principles of confounder selection)」5です。
この中では、「disjunctive cause criterion (分離的原因基準)」と呼ばれる、推定モデルに含めるべき変数と含めるべきではない変数の選択基準が、以下のように示されています。
推定モデル含めるべき変数
– 処置の原因となっている共変量
– 結果変数の原因となっている共変量
– 処置と結果変数の共通の原因となっている変数。その変数が観測できない時は、その変数の代理変数。
推定モデルに含めるべきではない変数
– 中間変数
– 操作変数
この基準をもとに先の学習塾の事例を考えると、交絡因子である「生徒の元々の学力の高さ」「学校や家庭など学習塾以外での勉強」と、共変量である「生徒の受験当日の体調」は推定モデルに含める一方で、中間変数である「生徒の学習塾への出席率」は、推定モデルに含めるべきではないことが分かります。
また、交絡因子の一つである「生徒の元々の学力の高さ」を直接観測することが難しいことから、その代理変数として「生徒の学習塾入会前の学力テストの結果」を推定モデルに含めることが考えられます。
また、仮に操作変数に該当する観測が存在する場合には、それを推定モデルに含めると、推定にバイアスが存在する場合にバイアスが増幅される可能性があることが知られており6、操作変数は含めるべきではありません。
作成:Intelligence In Society
従来の交絡因子の定義が不適切となるケース
冒頭で解説した交絡因子の定義と、上記の交絡因子選択の基準では、一部のケースにおいて、推定モデルに含めるべき変数としての交絡因子の選択に違いが生じることが知られています。具体的には、その変数が因果の「合流点」に該当する場合で、「合流点バイアス (collider bias)」や「Mバイアス (M-bias)」と呼ばれます。
DACで表した場合、以下のようにアルファベットのM字型における合流点である変数X3は、従来の定義による交絡因子の要件を全て満たします。しかし、X3をモデルに含めて統制すると、本来TとYの間に因果関係はないにも関わらず、TとYの間に相関が生じることがあります。これは変数X3の値で選抜が行われる状態にあたり、「選抜バイアス」として知られています4。
したがって、変数の中で何を「交絡因子」として捉えモデルに含めるかは、従来の交絡因子の定義に加え、DACや交絡因子選択の基準に基づく検討も行った上で、対象領域に関する知見・経験などを踏まえて総合的に判断することが必要となります。
作成:林 (2024)をもとに、Intelligence In Society
ここまで、因果関係を考える上で課題となる「交絡因子」について、その意味と、各種の変数との関係性、因果関係の推定における考え方を解説しました。
当記事に関連する内容の詳細については、以下のページをご覧ください。
また、因果推論に関する全ての記事は、以下のページからご覧いただけます。
参考文献・注記:
1. Kosuke Imai, Nora Webb Williams. (2022) “Quantitative Social Science – An Introduction in tidyverse,” Princeton University Press.
2. 西山慶彦・新谷元嗣・川口大司・奥井亮 (2019) 『計量経済学』有斐閣
3. Joshua D. Angrist, Jörn-Steffen Pischke. (2009) “Mostly Harmless Econometrics: An Empiricist’s Companion,” Princeton University Press.
4. 高橋将宣(2022) 『統計的因果推論の理論と実装 ― 潜在的結果変数と欠測データ ― 』共立出版
5. Tyler J. VanderWeele. (2019) “Principles of confounder selection,” European Journal of Epidemiology, Volume 34, pages 211–219
6. 林岳彦 (2024)『はじめての統計的因果推論』, 岩波書店