効果検証|その意味、実施における課題と対処法

この記事では、「効果検証」について、その意味、検証おいて問題となる「バイアス」の存在と、その対処法としての「無作為化」、実務において注意すべきポイントについて、具体例をもとに解説します。

「効果検証」の意味

事業や施策の「効果」を適切に評価し把握することは、社会課題の解決や売上の拡大といった、事業や施策が目指す目的の達成において極めて重要です。

一般的に「効果」とは、

  • ある働きかけによって現れる、望ましい結果(デジタル大辞泉)
  • ある原因から明確な因果関係による結果として生じる現象(Wikipedia)

などの意味で用いられる言葉ですが、「効果」の性質として特に重要な点は、上記の定義から示唆される通り、「再現性」を持つということです1

「再現性」とは、「明確な因果関係によって、ある働きかけを行えば、特定の結果が期待できる」ということであり、仮に再現性が無ければ、「効果」に基づいて意思決定を行っても期待された結果が得られず、目指す成果や目的の達成が困難となります。

「効果検証」とは、効果の有無や程度について、実際のデータ等に基づいて客観的に検証し、評価することを指します。また、効果検証を行う際には、必ずその前提として、「ある働きかけによって、特定の結果(=効果)が現れる」という仮説が存在しているはずであり、効果検証を行うことは同時に、その仮説を実際のデータによって実証することを意味します。

効果検証おいて問題となる「バイアス」

効果の重要な性質が「再現性」であるということは、効果の検証には、2つの現象の間の「因果関係」に対する評価が求めらることを意味します。そして、実際の効果検証の場面で問題となる点の多くは、この「因果関係」を正しく評価できていないために、効果の有無や程度について誤った結論に達してしまうことです。

例として、ある自治体が「介護職人材不足の解消」に向けた施策を検討しており、「身体的負担の軽減」が、介護職人材の「定着の促進」に対する効果を持つ、という仮説を検証する場合を考えます。

特定の介助支援機器の導入が、介護職員の身体介護における負担(身体的負担)を軽減することが予め知られている場合、その介助支援機器を導入している施設群と、導入していない施設群における介護職員の定着率に関するデータを集め、その平均値を比較する、という形が良く行われる検証方法です。

しかし、この場合、その介助支援機器を導入している施設は、導入していない施設に比べて経営状態が良好であり、定着率の差は機器導入の有無ではなく、実際には給与水準や、情報管理システムの整備による業務のしやすさなど、機器導入以外の要因によって生じている可能性があります。

別の例として、ある企業において売上に対するWEB広告の効果を把握したいケースを考えます。広告を出す前と比べて出した後の売上が伸びたとした場合、広告に売上を伸ばす効果があったと言えるでしょうか?

この場合も、この企業の他の施策や、競合他社の動き、マクロな市場環境など「広告以外」の要因によって売上が伸びていた可能性があり、広告掲載前後における売上の変化が、広告の効果なのか、それ以外の要因によるものなのかを正しく判断することができません。

作成:Intelligence In Society

これらのケースにおいて施策の真の効果を適切に評価できない理由は、因果関係の特定に必要な「正しい比較」ができていないことにあります。因果効果の把握には、「施策の有無以外の点においては全て同じ」2つの対象を比較することが必要ですが、上記のケースでは2つの比較対象が「施策の有無以外の点においても異なっている」可能性が高く、「正しい比較」ができていません。

このように、「正しい比較」ができていないことで施策の真の効果が適切に捉えられていない状態を、その比較によって得た分析結果に「バイアス(bias=偏り)がある」と言います。

バイアスへの対処法としての「無作為化」

効果検証において問題となる「バイアス」に対処する方法として、最も重要なキーワードの一つが「無作為化」です。「無作為化」とは、「規則性がなく、ランダムである」という意味ですが、例えば上記の介助支援機器の例では、ある施設の集まり(集団)において、機器を導入する施設群と導入しない施設群をランダムに選ぶことに該当し、これを(処置の)「無作為割当」と言います。

「無作為割当」によって因果効果の推定を行う代表的な手法が、「ランダム化比較試験(RCT)」と呼ばれるものです。RCTは、ある集団を2つのグループに分ける際に、その対象をランダムに割り当てます。それによって、(一定以上の対象数があれば)2つのグループが統計的に同質の集団となり、2つのグループの結果の差を、処置の有無によるものと特定することが可能となります。

介助支援機器の例で言えば、仮に機器導入の有無をランダムに割り当てることができ、機器導入の有無以外の点において2つのグループが同質の集団となれば、両グループの定着率の差を機器導入の効果によるものと判断することが可能です。

作成:Intelligence In Society

なお、RCTでは、一個人や一個体についての因果効果ではなく、複数の個人や個体から成る「グループ」における平均的な因果効果の把握が可能であり、これを「平均処置効果(Average Treatment Effect)」2と呼びます。

RCTは適切に実施できれば、因果効果の特定において非常に有効な手法です。しかし、特に社会科学領域においては、RCTの実施に必要な労力や費用、対象者をランダムに割り当てることに伴う倫理的な問題などから、実施が難しいケースも多いのが現実です。

また、既に実施中あるいは実施済みの施策の評価においては、事後的にRCTを行うことは当然不可能であり、RCTの適用自体ができないケースも多く存在します。その一方で、RCTが適用できないケースにおいても、因果効果の推定を可能にする様々な手法が近年開発されています。

各手法のより詳細な解説については、こちらのページをご覧ください。

実務において注意すべきポイント

最後に、ここまでの内容を踏まえた上で実際に効果検証を行う際に注意が必要なポイントとして、「無作為割当と無作為抽出の違い」「因果関係と相関関係の違い」の2点について解説します。

「無作為割当」と「無作為抽出」の違い

1つ目のポイントは、上記で解説した「無作為割当」と、似た概念である「無作為抽出」の違いを正しく理解することです。これは、RCTなどの手法を使って分析を行うことで、「どの集団に関する因果関係が推定できるのか」を正しく判断する上で重要となります。

「無作為割当」が、

サンプル(標本)を、処置群と統制群の2つのグループに無作為(ランダム)に分けることで、2つのグループが同質の集団となることを確率的に保証する

ことを指すのに対して、「無作為抽出」は、

母集団からサンプル(標本)を無作為(ランダム)に選ぶことで、サンプルと母集団が、集団のサイズ以外の全ての要素について同質の集団となることを確率的に保証する

ことを意味します。

「無作為割当」を行う目的は、処置群と統制群の2つのグループが平均的に同質の集団となるようにすることで、両者の比較から「処置による因果効果の把握を可能にするため」です。一方、「無作為抽出」を行う目的は、サンプル集団が母集団と平均的に同質の集団となるようにすることで、「サンプル集団が母集団を代表できるようにするため」であると理解できます。

RCTは、サンプル集団に対して処置を無作為に割り当てることで、処置による真の因果効果の推定における「内的妥当性」(=分析結果が、分析の対象となったサンプル集団において、真の因果関係を表している程度)を高めます。しかし、「無作為割当」が約束するのは、あくまでそのサンプル集団における因果効果の推定に関する妥当性です。

一方、その結果が、本来知りたかった「母集団」における因果効果を適切に捉えているかは、そのサンプルが母集団からどのように抽出された集団であるかに依存します。「無作為抽出」は、サンプル集団が母集団を適切に代表するようにすることで、サンプル集団に関する推定結果を、母集団に対して「一般化」することを可能にします。

仮にサンプル集団が母集団から無作為抽出された集団ではない場合、サンプル集団が母集団を代表できている、とは言い切れず、サンプル集団から母集団への分析結果の一般化は担保されません。このような場合、本来の目的集団における因果関係と、分析によって得られた因果関係が一致せず、分析結果の一般化に問題が生じる可能性があるため注意が必要です。

出典:高橋将宣(2022)3をもとに、Intelligence In Society作成

無作為割当と無作為抽出についての詳細は、以下のページをご覧ください。

「因果関係」と「相関関係」の違い

実務において注意すべきポイントの2つ目は、「因果関係」と「相関関係」の違いを区別することです。「因果関係」とは、2つの要因の間にある「原因」と「結果」の関係性であり、

ある要因Xを変化させることによって(=原因)、他の要因Yも変化する(=結果)

という表現で表されます。

一方、「相関関係」は、2つの要因が「同時に発生している」「同時に変化している」という関係性であり、

Xが生じているとき、Yも生じている
Xが変化しているとき、Yも変化している

という表現で表される関係性に当たります。

先の例における、「介助支援機器を導入している施設は、そうでない施設よりも定着率が高い」「WEB広告を出した後の売上は、出す前の売上よりも伸びている」という状態が意味するのは、あくまで「相関関係」です。仮に定着率や売上の向上が、機器導入やWEB広告とは別の要因によって引き起こされている場合、施策による「効果」に必要とされる条件として冒頭で述べた「再現性」は、担保されません。

このように、実際には因果関係が存在しないにも関わらず、因果関係があるように見える関係性のことを「疑似相関(見かけ上の相関)」と呼びます。一見したところ因果関係が存在すると思われるケースにおいても、「正しい比較」ができていない場合、単なる相関関係を因果関係と見誤ってしまう可能性が生じます。

因果関係の特定を可能にする「正しい比較」には、先に述べた「比較する2つのグループが同質の集団である」こと、別の表現では「結果に影響を与える特性の分布が、2つのグループでバランスしている」ことが必要となります。これを、RCTをはじめとする様々な分析手法を通じて担保することではじめて、高い精度での因果効果の特定が可能となるという点について理解することが重要です。

因果関係と相関関係についての詳細は、以下のページをご覧ください。

ここまで、「効果検証」について、その意味、検証おいて問題となる「バイアス」の存在と、その対処法としての「無作為化」、実務において注意すべきポイントについて解説しました。

効果検証や因果推論に関する全ての記事は、以下のページからご覧いただけます。

参考文献・注記:
1. 安井翔太 (2020) 『効果検証入門ー正しい比較のための因果推論/計量経済学の基礎』技術評論社
2. 西山慶彦・新谷元嗣・川口大司・奥井亮 (2019) 『計量経済学』有斐閣
3. 高橋将宣(2022) 『統計的因果推論の理論と実装 ― 潜在的結果変数と欠測データ ― 』共立出版

関連記事