選択バイアスとは|その意味・具体例と対処法

この記事では、因果関係の推定や予測モデリングにおける重要な概念である「選択バイアス」について、その意味やDAGに基づく整理、対処法を具体例をもとに解説します。

「選択バイアス」とは何か

選択バイアスの意味

選択バイアス (selection bias)」とは、ある対象についてデータをもとに因果関係の推定や予測のモデリングを行う際に、収集したデータ(サンプル)の分布に偏りがあることで、本来の分析対象である母集団とサンプル集団の間の差から生じる誤差のことを指します。

例えば因果関係の推定においては、「選択バイアス」によって母集団とサンプル集団の間で因果関係に影響する属性が異なる分布となることで、正しい比較や推定結果の一般化が行えないケースが発生します。このような場合、因果関係の推定を正しく行うためには、ケースの特性に応じて後述するような対処法を使うことが必要となります。

一方、機械学習などによる予測のモデリングにおいては、予測のために学習されたデータが、本来の対象集団とは質的に異なる集団から収集されたデータである場合に選択バイアスが生じます。

これは例えば、ある新規のプロモーションに対する顧客の反応確率の予測を、過去の別のプロモーションに関するデータからモデリングするようなケースが該当しますが、それが意図されたものでない場合、サンプルデータにおいて実現されたモデルの性能が、実際の母集団においては再現できないという状況が発生します。

いずれの場合も、選択バイアスの存在が懸念されるケースにおいては、それによる影響度を事前に踏まえた上で、選択バイアスの影響を適切にコントロールするための手法の選択や、必要に応じてサンプルデータの再収集などを行うことが必要となります。

DAGによる選択バイアスの理解

選択バイアスがどのようなものであるかは、有向非巡回グラフ (DAG: Directed Acyclic Graph) を使い視覚的に確認することでより明確になります。DACは、方向を持つ(=有向)矢印で構成された、ループしない(=非巡回)ダイアグラムで、要因間の関係性を視覚的に表現する手法です。

左側の図は、(主に社会科学領域における)典型的な「選択バイアス」をDAGで表したものです。「T」は処置、「Y」は結果、「C」は「結果に影響する変数の中で、処置の影響を受けていない変数」である「共変量」を表しています。

ここで、共変量Cは「分岐点」に位置し、CからTとYの両方に対して矢印が出ており、両者に影響を与えていることが見て取れます。この時Cは、TとYの間に、「実際の因果関係ではないにも関わらず、因果関係のように見える関係性」(「疑似相関」または「見かけ上の相関」)を生じさせる要因となります。

選択バイアス

林 (2024) を参考にIntelligence In Society作成

なお、右側の図では、Cは「合流点」に位置しており、TとYの両方から出た矢印がCに入る形となっています。このケースでは、合流点であるCが固定されると、実際にはTとYの間に因果関係が無くても、TとYの間に疑似相関が生じることが知られており、疫学の領域では主にこのようなケースが「選択バイアス」と呼ばれます。

以下では、社会科学領域における「分岐点」による選択バイアスの定義をもとに、因果関係の推定における選択バイアスの例とその対処法を解説していきます。

選択バイアスの例とその対処法

因果関係の推定における選択バイアス

例えば、ある「学習塾への入会」の「定期テストの結果」に対する因果関係を知りたいケースを考えます。この場合、家庭の経済状況や、親の教育への関心の高さといった要因が、処置である「学習塾への入会」と結果である「定期テストの結果」の両方に対して影響を与えている可能性があります。

ここで仮に、「学習塾への入会有無」をもとに対象集団を2つのグループに分けてその結果を比較した場合、家庭の経済状況などの要因によって選択バイアスが生じた状態となり、両グループの結果の差は本来の「学習塾への入会の効果」を正しく反映したものとはなりません。

これは、処置である「学習塾への入会」とは別の因果関係の存在によって、観測される関係性に基づく分析(2つのグループの結果の単純な比較)が誤った評価となる状態であると理解することもできます。

選択バイアスの事例

作成:Intelligence In Society

このケースにおいて「学習塾への入会」の因果効果を正しく推定するには、以下のような方法を適用することで、選択バイアスによる影響をコントロールする必要があります。

選択バイアスへの主な対処法

1.共変量の分布を揃える

選択バイアスへの対処法として最も直接的な方法は、選択バイアスを引き起こしている共変量の値を、比較する2つのグループの間で揃えることです。

具体的な方法としては、以下のようなものが挙げられます。

  • 共変量の水準に応じて2つのグループを複数の層に分け、各層ごとに両グループを比較する方法(層別化)
  • 共変量の値をもとに「処置の受けやすさ」を表した傾向スコアを使い、スコアの近い対象同士をマッチングさせて比較する方法(マッチング)
  • 回帰モデルに共変量を変数としてを組み込むことで、共変量の影響をコントロールする方法(重回帰分析)

これらの方法では、選択バイアスを引き起こす全ての要因が特定できていると同時に、それらの振る舞いが傾向スコアや回帰モデルにおいて正しく定式化されていることが、適切に因果関係を推定するための条件となります。

したがって、「特定できていない要因」によっても選択バイアスが生じている可能性がある場合、これらの方法では推定結果が不適切となる可能性があります。一方、このようなケースでも適切な因果関係の推定を可能にする方法が、次に紹介する「処置の無作為割り当て」による対処法です。

2.処置を無作為に割り当てる

共変量を直接調整することによる対応が難しい場合でも、選択バイアスへの対処を可能にする方法として最も効果的なものの一つが、ランダム化比較試験(RCT)に代表される、「処置の無作為割り当て」です。

RCTでは、ある集団に対して処置の有無を無作為(ランダム)に割り当て、処置の対象となる「処置群」と対象とならない「統制群」の2つのグループを作ることで、(一定以上の対象数があれば)2つのグループが統計的に同質の集団となり、2つのグループの結果の差を処置の有無によるものと特定することが可能となります。

RCTは、強い内的妥当性のもとに、処置の効果とその不確実性を定量化できることから、疫学をはじめ心理学、計量経済学、計量社会学など多くの分野において、因果関係の特定におけるゴールドスタンダードと考えれらています。

ただし、上記ケースでは、「学習塾への入会有無」を無作為に割り当てることは倫理的な観点などから実際には難しいと考えられます。このようにRCTの実施が難しいケースでも因果関係の推定を可能にする方法が、次に紹介する「自然実験(疑似実験)」を活用した分析手法です。

3.「自然実験」を活用した分析手法を使う

自然実験 (Natural Experiment)」は、本当の実験(=RCT)のように人工的にコントロールされているわけではないものの、まるで実験が起こったかのような状況がうまく利用できる状態のことを指します。

自然実験を活用することで、無作為割り当てが行われた実験データが得られない状況でも、制度がもたらす偶然や偶発的な事象などによって、あたかも実験を行ったように因果効果の推定を行うことが可能となります。

自然実験には、「境界付近における処置割り当ての無作為性」や「2つのグループの時系列トレンドの平行性」など、対象ケースの持つ特性を利用することで因果効果の推定を行う様々な手法が存在するため、ケースの特性に応じて適切な手法を選択することが必要です。

主な手法には、以下のようなものが挙げられます。

  • 選択バイアスとは無関係に発生した「外生的なショック(=操作変数)」を利用して、処置効果を測定する手法(操作変数法
  • ある基準値を境に処置の対象となるか否かが決まる状況で、基準値を僅かに上回った人と僅かに下回った人の結果から、処置効果を推定する方法(回帰不連続デザイン
  • 同じような特性を持つ2つのグループのうち、一方のグループのみに処置が行われ、もう一方のグループには行われない状況において、2つのグループの時系列データを用いた比較に基づいて処置効果を測定する方法(差の差法
  • 処置を受けない対象の時系列データをもとに「処置を受ける対象が、仮に処置を受けなかった場合の結果」を予測し、それを実際の結果と比較して処置効果を測定する方法(合成コントロール法

ここまで、因果関係の推定や予測モデリングにおける重要な概念である「選択バイアス」について、その意味やDAGに基づく整理、対処法を解説しました。

本記事に関連するトピックについての詳細は、以下のページをご覧ください。

また、因果推論に関する全ての記事は以下のページからご覧いただけます。

参考文献:
◦林岳彦 (2024)『はじめての統計的因果推論』, 岩波書店
◦Foster Provost, Tom Fawcett. (2014)『戦略的データサイエンス入門: ビジネスに活かすコンセプトとテクニック』, O’Reilly Japan
◦金本拓 (2024) 『因果推論ー基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチー』, オーム社

関連記事