インパクト評価とは|その意味と実施の手順・考え方

この記事では、プログラム評価における「インパクト評価」について、その意味・目的や、「社会的インパクト評価」との違い、実施における手順や考え方を具体例をもとに解説します。

インパクト評価とは何か

インパクト評価の意味

社会課題の解決に向けた取り組み全体を「プログラム」と捉え、体系的な評価を通じて、その取り組みの価値の判断に資する情報や、取り組みの質の改善につながる情報を得る活動を、「プログラム評価(Program Evaluation)」と呼びます。プログラム評価は5つの階層によって構成されますが、その1つを成すのが「インパクト評価 (Impact Evaluation/Impact Assessment)」です。

プログラム評価における「インパクト評価」は、以下のように定義されます。

対象とするアウトカムに対して、プログラムがどのようなインパクト(因果効果)を持っているか、という問いに答えるための評価1

アウトカムにおけるどのような変化を、プログラムによる介入の効果に帰することができるか、を判断するための活動2

つまり、プログラムが一定期間実施された後に社会の状態に生じた変化(アウトカム)が、実際にプログラムによってもたらされたものであるかどうかを検証する活動が、インパクト評価にあたります。

なお、評価の5階層においては、「アウトカム/インパクト評価」という形で「アウトカム評価」とセットで構成されることが一般的です。しかし、「アウトカム評価」が、プログラムの実施後に期待されるターゲット集団や社会に現れる変化の状態を捉えるものであるのに対して、「インパクト評価」は、事業と成果の間の帰属性を問うことで純効果(net effects)を検証するものである、という違いがあります3

インパクト評価を行う目的

インパクト評価を行う目的の一つは、事業の改善につながる情報を得ることです。インパクト評価を通じて、プログラムが意図した変化を生み出しているのかについて、その因果効果を把握することは、プログラム全体の評価に大きな影響を与える情報の一つです。

仮にプロセス評価の結果が良好であるにも関わらず、インパクト評価を通じて、対象とするアウトカムに対してプログラムに十分な因果効果が無いことが明らかになった場合、セオリー評価によって、プログラムセオリーに問題や欠陥がないかの評価を行うことが必要となります。

また、セオリー評価の結果にも問題がなかった場合は、プログラムが対象とする社会課題の実態や、ターゲット集団の人々のニーズに対する理解に不十分な点や重大な欠陥がないかを、ニーズ評価を通じて再確認する必要があります。

インパクト評価では、セオリー評価やプロセス評価、ニーズ評価などのプログラム評価における他の評価と組み合わせて実施することで、評価結果から客観的・論理的に導かれる結論をもとに、事業改善につながる情報を得ることを目指します。

インパクト評価のもう一つの目的は、事業の実施段階・終了時点において、事業に関する説明責任(アカウンタビリティ)を果たすことです。プログラム評価を通じて、社会課題の解消に向けて当初目標とした成果がどの程度達成されたのか、事業に投入された資源の利用は妥当で、正当化できるものであったか、などを明らかにします。

この点は、近年のEBPM(エビデンスに基づく政策立案)などの行政評価の文脈において重要なだけでなく、社会的企業やNPOなどが、投資家や助成団体などの資金提供者から、事業やプログラムに対する継続的な支援を獲得する上でも極めて重要となります。

「社会的インパクト評価」との違い

なお、社会課題の解決を目指す事業などにおいて、「事業による成果に関する評価」を指す言葉としてよく使われる他の言葉に、「社会的インパクト評価 (Social Impact Measurement)」があります。「インパクト評価」と「社会的インパクト評価」は、ともに事業やプログラムによって集団や社会に生じる変化(効果)をその評価対象としている、という点で共通していますが、以下に挙げる2つの重要な違いがあります。

①因果関係に対する厳密さ:
両者の最も重要な違いは、「因果関係(=活動・事業と成果の間の帰属性)の評価に対する厳密さ」です。

「インパクト評価」が、事業とその成果の帰属性を考慮し、両者の間の因果関係について厳密な評価を行う一方で、「社会的インパクト評価」は、因果関係に関する厳密な評価を求めないことが一般的です。そのため、因果関係を厳密に評価しない「社会的インパクト評価」における論理構造は、「インパクト評価」に比べると必然的に脆弱なものとなります。

これは、「インパクト評価」が学術的な評価学・評価研究における概念である一方、「社会的インパクト評価」は評価研究から生まれた概念ではなく、海外援助における社会・環境アセスメントをその始まりとしており3、両者の発端における目的が異なることが背景にあると考えられます。

②評価がどのように行われるか:
評価において、因果関係の存在を厳密に問うか否かという違いは、評価がどのように行われるか、という点の違いに繋がります。

「インパクト評価」においては、後述する「疑似相関」の排除などに関する厳密な検証を行うため、RCT(ランダム化比較試験)に代表される実験手法や、自然実験・疑似実験と呼ばれる状況を活用した手法など、「因果推論」による理論・手法の枠組みに基づく評価が行われます。

一方、「社会的インパクト評価」では、疑似相関の排除などに関する厳密な検証は行われないか、因果推論の枠組みなどを使わない簡易な形での検証のみとなることが一般的です。

なお、「社会的インパクト評価」において厳密な因果関係の評価が行われない要因には、因果関係の評価に必要となる技術・リソース面における制約も影響しており、「厳密な評価をしたくても実施が難しい」というケースも多いと考えられます。したがって、「社会的インパクト評価には、厳密な因果関係の評価が必要ない」ということを意味するものではないことに注意が必要です。

インパクト評価と社会的インパクト評価の違いに関する詳細は、以下の記事をご覧ください。

インパクト評価の実施方法

インパクト評価実施に向けた準備

インパクト評価を行うためには、以下の4点について準備が完了している必要があります。インパクト評価の実施には、これらを予め整理することがスタートとなります。

①プログラムセオリーの明確化

インパクト評価を行うためにまず必要なのは、対象とする事業やプログラムの「プログラムセオリー」を明らかにすることです。

プログラムセオリーとは、サービスの提供や活動の実施がサービス利用者(ターゲット集団)に届く道筋を示した「プロセス理論」と、ある社会課題が解決された状態(アウトカム)の達成と、それをもたらすプログラムの活動・サービスとの間の手段ー目的の関係を示す「インパクト理論」を合わせたものです3

プログラムセオリーを明らかにすることは、インパクト評価において、事業による介入(=原因)とそのアウトカム(=結果)の間の因果関係を評価する際の重要な基礎となるものです。プログラムセオリーを明らかにすることで、次のステップにおいて評価クエスチョンを明確にすることが可能となります。

プログラムセオリーを明らかにする上で有効なのが、セオリーオブチェンジやロジックモデルを作成することです。セオリーオブチェンジとは、プログラムによって「なぜ」その対象に変化が起こるのか、ということを変化の論理的連鎖として示したものです4

セオリーオブチェンジによってプログラムの「活動(アクティビティ)」と「成果(アウトカム)」の間の論理的な繋がりが明らかにされ、「プログラムの意図する変化がなぜ達成されるのか」のロジックが可視化されることで、事業の関係者が、変化を理解し、変化のプロセスを管理し、その効果を測ることが可能となります。

一方、ロジックモデルは、事業やプログラムなどの取り組みが目指す成果・目的と、その達成のために用いられる手段との関係を、体系的かつ論理的に表現したモデルのことを指します。

ロジックモデルの基本要素は以下の4つから構成されます。

  • 投入(インプット)    :事業に対して投入される人・モノ・カネ・情報などの資源
  • 活動(アクティビティ):インプットを使い行われる実際の活動
  • 産出(アウトプット)   :活動の結果として生み出される財・サービスなど
  • 成果(アウトカム)    :事業の実施後における社会の状態の変化

また、「成果(アウトカム)」は、成果が実現される時間軸やその影響範囲によって、

  • 事業による直接的な成果を表す「直接アウトカム
  • 最終アウトカムの実現に貢献する成果を表す「中間アウトカム
  • 最終的に実現を目指す社会の状態を表す「最終アウトカム

の3つに分けられ、特に「最終アウトカム」は「インパクト」とも呼ばれます。

プログラムセオリーをロジックモデル上で表すと、以下のようになります。プロセス理論とインパクト理論はそれぞれ、投入~産出と、産出(または直接成果)~最終成果の領域に該当しており、この2つを合わせたものがプログラムセオリーとなります。

プログラムセオリー

作成:Intelligence In Society

セオリーオブチェンジとロジックモデルに関する詳細は、以下のページをご覧ください。

②評価クエスチョンの設定

インパクト評価によってどのような問いに対する答えを明らかにしたいのか、その「評価クエスチョン」を明確にすることは、効果的なインパクト評価において不可欠です。

インパクト評価によって明らかにするのは、プログラムセオリーの背後にある重要な「仮説」の正しさであり、これを数値データによって検証可能なものとして明確に定義することが、「評価クエスチョン」の設定にあたります。インパクト評価は、この評価クエスチョンに対して、信頼に足るエビデンスをもとに答えを出すことを目指します。

プログラムセオリーを構成する仮説は一つではなく、複数の仮説が含まれていることが一般的です。それら全ての仮説をインパクト評価の対象とすることは現実的ではなく、その中から特に重要な仮説を選び評価対象とします。

また、プログラムの一部機能を刷新した場合のその効果を評価する、2つの異なるプロセスを持つプログラムについてその効果を比較するなど、評価の目的によっても評価クエスチョンは変化します。

いずれのケースにおいても重要なのは、外部に生じた変化(インパクト)のうち、プログラムの活動やその改善・刷新などに直接的に帰することができるものにフォーカスし、評価クエスチョンを設定することです。

③アウトカム指標の選択

明確な評価クエスチョンは、その結果を評価するための「アウトカム指標」とセットで設定される必要があります。「アウトカム」とは、事業実施後に事業の対象となった個人や集団、社会にあらわれる状態の変化を意味し3、プログラムの対象である個人や集団、社会などの視点から、プログラムがこれらの対象に及ぼした影響を捉えるものです。

評価クエスチョンで設定した問いは、その具体的な指標としての「アウトカム指標」をもとに検証されることで、プログラムの成否が評価されます。また、RCTによる評価が可能な際は、アウトカム指標をもとに「プログラムによってどの程度の効果が期待されるか」を数値化することで、必要なサンプル集団のサイズを特定することが可能です。

アウトカム指標の設定において重要な点は、その指標のデータが実際に入手可能であるとともに、それがプログラムの効果を適切に反映していることです。

例として、ある中学生の集団における「学習塾への入会」の因果効果を評価するケースを考えます。仮に、学習塾入会の効果を「志望校への合格」というアウトカムで評価する場合、各生徒の「志望校」は、その合格難易度や生徒の入塾前の学力とのギャップの程度がバラバラであることが想定されるため、「学習塾への入会」による直接的な効果を適切に反映したものとはならない可能性があります。

この場合、「学習塾への入会」による効果を評価するためのアウトカム指標は、学力向上の程度が均一の数値で測定できる「統一模試の点数」などの方がより適切であると想定されます。

また、アウトカム指標の設定においては、アウトカムの「時系列レベル」とその「影響範囲」の2つの軸で整理することも効果的です。時系列レベルの整理は、上述の「直接アウトカム」「中間アウトカム」「最終アウトカム」の3つの区分で行います。ロジックモデルを作成している場合は、ロジックモデル上で既に整理がされている場合も多いでしょう。

一方、アウトカムの影響範囲による整理は、そのアウトカムが「①個人など個の対象における変化に関するものか」「②グループなど特定の集団における変化に関するものか」「③地域社会や高次の組織体などにおける変化に関するものか」によって行います。

学習塾の例では、「学習塾に入会する生徒個人における変化」が①、「学習塾に入会する中学生という集団における変化」が②、「学習塾が生み出す効果によって生じる中学校教育における変化」が③、というように整理することができます。

「アウトカム」に関する詳細は、以下の記事をご覧ください。

④評価データの作成・収集

評価対象となるアウトカム指標が決まったら、実際のデータの収集に入ります。この際、インパクト評価においてプログラムの実施前後の比較データを必要とする場合には、プログラム開始前にもデータを収集しておく必要があることに注意が必要です。

また、実際のデータの収集においては、データに基づく評価結果ができる限り高い妥当性を持つよう配慮することが重要です。これには、データ収集の対象者の選定(サンプリング)、データ収集の方法・タイミングなどが含まれます。

プログラムの全対象者からサーベイなどによってデータを収集することは現実的ではない場合が多く、実際のデータ収集においては一部の対象者を選別することになります。この際、プログラムの効果に影響を与えうる要素(例えば、年齢・所得・学歴などの属性)が、全対象者とサンプル集団で十分に類似していなければ、サンプル集団から得られたデータは全対象者におけるプログラムの効果について誤った情報を提供する可能性があります。

これは、「サンプル集団に関して推定された因果関係が、母集団においても成立するか」を意味する「一般化可能性」に関わる問題ですが、一般化可能性はRCTを行えば自動的に担保されるものではなく、分析者自らが分析対象を慎重に選ぶことで担保する必要があります。

特に、RCTの対象となるサンプル集団を「データが入手しやすいから」といった理由などで安易に選んだ場合、本来知りたかった対象である目的集団における因果関係と、分析によって得られた因果関係が一致せず、分析結果の一般化に問題を抱えることになるため注意が必要です。

また、データ収集の方法が、対象者によってWEBサーベイ・紙によるサーベイなどと異なっていたり、プログラムの提供からデータ収集までの期間が対象者によって大きく異なっている場合などは、それらの違いがデータに影響を与え、評価に無用な歪みを生じさせる可能性があります。

データの収集においては、後述する「選択バイアス」や「情報バイアス」、「実験などの『あり方』に起因するバイアス」などの「外生要因」が生じていないか、生じている場合にはそれを適切にコントロールできる評価設計になっているか、にも十分に留意する必要があります。

インパクト評価における考え方と評価手法

インパクト評価の実施に向けた準備が完了したら、実際の分析に入ります。以下では、インパクト評価の実施においてポイントとなる考え方と、具体的な評価手法について解説します。

因果関係の成立に必要な3つの条件

プログラムとアウトカムの間の因果関係を評価するには、因果関係の成立に必要な条件を理解している必要があります。2つの要因間の関係が確かに因果関係であることを示すためには、「①共起関係(相関関係)」「②方向性(時間的先行)」「③特異性(疑似相関の排除)」の3つの条件が成立していることの証明が必要と考えられています5

「①共起関係(相関関係)」とは、原因と見なされる要因Xと、結果と見なされる要因Yの間に、「XとYが同時に発生している」という共起関係や、「XとYが同時に変化している」という相関関係が成立していることです。また、「②方向性(時間的先行)」とは、原因と見なされる要因Xと、結果と見なされる要因Yの間に、「XがYに対して時間的に先行している」という方向性が成立していることを指します。

そして、因果関係の特定において実質的に最も重要なのが、「③特異性(疑似相関の排除)」です。これは、原因と見なされる要因Xと、結果と見なされる要因Yの間に見られる共起関係が、別の要因である「要因Z」によって引き起こされた「見かけ上の相関(疑似相関)」ではなく、要因Xによって特異的に要因Yが引き起こされている、という関係が成立していることを意味します6

先の学習塾の例では、「志望校への合格」という結果が、生徒の元々の学力の高さや、学校や家庭など学習塾以外の場での勉強の結果によって生じたのではなく、まさに「学習塾への入会」によって生じた(他の要因が全く同じでも、学習塾に入会しなければ志望校には合格しなかった)、という関係が成立する場合、それは「見かけ上の相関」ではなく、確かに因果関係であると見なすことが可能となります。

疑似相関の排除

作成:Intelligence In Society

反実仮想に基づいた因果関係の分析

先ほどの例の、「他の要因が全く同じでも、仮に学習塾に入会しなければ、志望校には合格しなかった」というように、実際には観測されなかった「反事実」について考えることによって因果関係を定義するアプローチを「反実仮想」と呼びます。

「反実仮想」においては、「原因である要因X以外の要素については全て同じ」、学習塾の例で言えば「学習塾への入会有無という点以外においては全て同じ」状況を仮想し、「もし学習塾へ入会していなければ、志望校には合格しなかった」ということを示すことで、学習塾への入会と志望校への合格という2つの要因の間に、因果関係が存在することを特定します。

「反実仮想」を用いることの利点は、それにより因果関係に関する整理や分析が行いやすくなることです。「反実仮想」に基づく因果推論の理論的枠組みは、「潜在的結果モデル(potential outcome model)」と呼ばれますが、この「反実仮想」の概念を理解することは、因果関係の特定において重要なポイントとなります。

反実仮想

作成:Intelligence In Society

外生要因への対処

反実仮想に基づいて因果関係を推定する際に重要なのは、事実に対して正しい「反事実」が設定されていることです。そして、その際に重要となるのが、「外生要因 (Extraneous factors/variables)」に対する適切なコントロールです。

「外生要因」は、『実験や観察を通じてその効果を測定する対象である「処置(原因)」を‘除く’全ての要素の中で、「結果」に影響を与える可能性のある全ての要素』を意味します7

例として、ある企業において売上に対するWEB広告の効果を把握したいケースを考えます。広告を出した後の売上金額に対して、広告を出す前の売上金額を「反事実」として設定した場合、両者の差を因果効果と捉えることができるでしょうか?

この場合、この企業の他の施策や、競合他社の動き、マクロな市場環境など「広告以外」の売上に影響を与える要因が広告掲載前後で異なっていた可能性があり、広告掲載前後における売上の変化が、広告の効果なのか、それ以外の要因によるものなのかを正しく判断することができません。

この例における「この企業の他の施策」「競合他社の動き」「マクロな市場環境」などが「外生要因」に該当します。「外生要因」について考慮し、適切に対処することは、取り組みによる因果効果を適切に把握する上で必須の要件となります。

外生要因には、

  • 対象の選択に起因するもの(選択バイアス)
  • データの測定に起因するもの(情報バイアス)
  • 実験などの『あり方』に起因するもの
  • 予測不可能なショックに起因するもの

など多様な種類が存在し、それぞれに対して異なる対処法が必要となります。

外生要因の種類やその対処法についての詳細は、以下の記事をご覧ください。

代表的手法としてのRCT(ランダム化比較試験)

「反実仮想」は因果関係の特定において有効な枠組みを提供しますが、「反実仮想」には1つ重大な問題があります。それは、処置の対象である要因Yについて、要因Xが変化した場合の結果と、要因Xが変化しなかった場合の結果を「同時に」観測することはできないということです。

1つの個人や個体について、処置があった場合となかった場合を同一条件で両方観測することは不可能であり、これを「因果推論の根本問題」と呼びます8

この問題に対する最良の解決策が、「ランダム化比較試験(RCT)」と呼ばれる手法です。「因果推論の根本問題」のもとでは、一個人や一個体について処置効果を測定することは不可能ですが、複数の個人や個体から成る「グループ」における「平均的な処置効果(Average Treatment Effect)」を測定することは可能と考えられます。

RCTは、2つのグループの対象者を選ぶ際に、その対象をランダム(無作為)に割り振ります。ランダムに割り振ることによって、(一定以上の対象者数があれば)2つのグループが統計的に同質の集団となり、2つのグループの結果の差を、処置の有無によるものと特定することが可能となります。

上記の学習塾の例で言えば、仮に学習塾への入会の有無をランダムに割り振ることができ、(「入会なし」に割り振られた生徒が自主的にそれを補う行動を取らない前提で)入会の有無以外の点において2つのグループが同質の集団となれば、両グループの受験結果(統一試験の点数など)の差を、入会の有無によるものと判断することが可能です。

RCT事例

作成:Intelligence In Society

その他の主な評価手法

RCTは適切に実施できれば、因果関係の特定において非常に有効な手法ですが、特に社会科学領域においては、RCTの実施に必要な労力や費用、対象者をランダムに割り振ることに伴う倫理的な問題などから、実施が難しいケースも多いのが現実です。また、既に実施中あるいは実施済みの事業や政策の評価においては、事後的にRCTを行うことは当然不可能であり、RCTが適用できないケースも多く存在します。

RCTが適用できないケースにおいてその代わりとなる評価手法には、対象とするケースの条件やあり方に応じて様々なものが存在します。

以下の表に示すように、これらの手法は、①因果関係の分析が可能な範囲(一般化が可能な範囲)や、②分析結果のサンプル集団における妥当性(内的妥当性)の強さの点で様々であり、それぞれの手法の特徴や条件を理解した上で使用することが重要です。

分析手法
①因果関係の分析が可能な範囲(一般化が可能な範囲)
②内的妥当性の強さ
RCT(強制参加型)
実験対象者
非常に強い
RCT(自由参加型)
実験対象者のうちの自発的参加者
非常に強い
回帰非連続デザイン
境界線付近の主体
強い
パネルデータ分析(差の差法)
介入グループ全体
若干劣る
合成コントロール法
介入グループ全体
若干劣る
傾向スコア分析
サンプル集団
若干劣る
操作変数法
サンプル集団
若干劣る

出典:伊藤公一朗(2017)9をもとに、Intelligence In Society作成

これらの各手法のより詳細な解説については、以下のページをご覧ください。

ここまで、プログラム評価における「インパクト評価」について、その意味・目的や、「社会的インパクト評価」との違い、実施における手順や考え方を解説しました。

当記事に関連するトピックの詳細については、以下のページをご覧ください。

また、プログラム評価に関する全ての記事は、以下のページからご覧いただけます。

参考文献・注記:
1. Gertler, Paul J.; Martinez, Sebastian; Premand, Patrick; Rawlings, Laura B.; Vermeersch, Christel M. J.. 2016. Impact Evaluation in Practice, Second Edition. © World Bank. http://hdl.handle.net/10986/25030 License: CC BY 3.0 IGO.
2. Peter H. Rossi, Mark W. Lipsey, Howard E Freeman. (2003) “Evaluation: A Systematic Approach (Seventh Edition),” SAGE Publications
3. 源由理子・大島巌(2020)『プログラム評価ハンドブック-社会課題解決に向けた評価方法の基礎・応用-』, 晃洋書房
4. 安田節之 (2011)『プログラム評価ー対人・コミュニティ支援の質を高めるためにー』, 新曜社
5. 佐藤郁哉 (2015) 『社会調査の考え方[下]』東京大学出版会
6. 林岳彦 (2024)『はじめての統計的因果推論』, 岩波書店
7. Simply Psychology (2023), “Extraneous Variables In Research: Types & Examples”. https://www.simplypsychology.org/extraneous-variable.html (2025年9月29日最終閲覧)
8. Holland, Paul W.(1986) “Statistics and causal inference,” Journal of the American Statistical Association, Vol. 81, No. 396, pp. 945-960
9. 伊藤公一朗 (2017) 『データ分析の力 因果関係に迫る思考法』光文社新書

関連記事