この記事では、事業やプログラムなどの成果に対する評価方法としての「アウトカム評価」について、主な分析手法や実施手順を具体例をもとに解説します。
<目次>
アウトカム評価の概要
「アウトカム評価」とは何か
「アウトカム評価」における「アウトカム」とは、「事業やプログラムの実施後に、その対象となった個人や集団、社会にあらわれる状態の変化」1を意味します。
「アウトカム評価」は、予め設定した指標をもとにこの「アウトカム」の変化を捉え、事業やプログラムの成果や進捗状況について価値判断を加える取り組みを指します。
アウトカム評価は、アウトカムの変化を一定の期間に渡って時系列で観測する「アウトカムモニタリング」や、施策の目標や基準の達成度合い対する継続的なモニタリングを行う「業績測定」といった活動と近いものであり、ターゲット集団や社会の状態が、事業やプログラムの実施後にどのように変化したか、を把握する取り組みであると言えます。
なお、上記の定義が示唆するように、アウトカム評価は「事業実施後における、ターゲットの状態の変化」を把握するものであり、必ずしも「事業」と「状態の変化」の間に厳密な「因果関係」が存在することに対する証明は求めていません。
この点で、アウトカム評価は、事業と成果の間の帰属性(因果関係)を問うことで事業の純効果(net effects)を把握することを目指す「インパクト評価」とは区別されます。実務においては、評価の目的や利用可能なリソースに応じて、これらのどちらを実施するか判断することが必要となります。
主な分析手法
アウトカム評価における評価手法として主なものには、以下が挙げられます。
事前・事後比較
事業やプログラムの対象となったグループについて、事業・プログラムの実施前/実施後のある時点におけるアウトカム指標の値を比較します。アウトカム指標の変動が比較的小さく、事業やプログラム以外の外的要因によって指標が大きく影響を受けないことが想定されるケースにおいて有効な手法です。
必要に応じてt検定などを実施し、前後の差が統計的に意味のあるものか否かについての確認も行われます。ただし、t検定の結果が有意であることが、事業と成果の間に因果関係があることを約束するものではない点に注意が必要です。
また、この手法では、指標がもともと時系列のトレンドに沿って増加または減少している場合に、実施前/実施後のある時点における差を、もともとのトレンドによって生じた差と区別することができません。このようなケースでは、次の「時系列トレンド比較」がより有効となります。
時系列トレンド比較
事前・事後比較と同様に、事業やプログラムの対象となったグループ内で比較をしますが、実施前/実施後の「ある時点」ではなく、実施前後の複数の時点におけるアウトカム指標の値を把握し、実施前/実施後のトレンドを比較します。
これにより、指標がもともと時系列のトレンドに沿って増加または減少している場合でも、実施前/実施後の「トレンドの変化」から事業による成果の有無を把握することが可能となります。
ただし、この手法でも、実施前/実施後に指標に大きな影響を与える事業以外の要因が変化していた場合、その要因による影響と事業による成果を区別することができません。このようなケースでは、次の「他グループとの比較」によって成果の把握が可能となる場合があります。
他グループとの比較
上記2つの手法と異なり、事業やプログラムの対象となったグループ内での比較ではなく、対象となっていないグループのアウトカム指標と比較することで成果を把握します。
仮に、事業やプログラム以外の外的要因による影響を全ての対象が一律に受けていると考えれらる場合は、全国平均値・全対象平均値などの一般指標と比較することで、事業による成果と外的要因による影響をある程度区別して把握することができます。(「一般指標デザイン」)
一方、外的要因による影響が、ある特定の対象のみに生じていると想定される場合は、その外的要因によって受ける影響に関して、事業の対象となったグループと可能な限り近似していると想定されるグループを比較対象として選定し、両グループの差から事業による成果を把握します。(「マッチングデザイン」)
また、これらの手法を「事前・事後比較」や「時系列トレンド比較」と組み合わせて使用することで、より妥当性の高い評価を行うことが可能です。
なお、これらの手法はいずれも、厳密な因果関係の存在を明らかにするものではありません。因果関係の有無をより厳密に分析する際には、因果推論の手法などを使うことが必要となります。
アウトカム評価の実施手順
アウトカム評価の実施には多様な方法が存在しますが、以下にその一例を紹介します。
手順①: 事業の目標、ゴールを整理する
アウトカム評価の基礎となるのは、事業やプログラムにおける目標やゴールです。目標やゴールには、事業が最終的に目指す状態が示されているため、これを整理することがアウトカム評価の出発点となります。
その際、ロジックモデルを作成することで、目標やゴールがどのようなプロセスによって実現されるのかについて、論理的な流れを可視化することができます。ロジックモデルは、事業やプログラムなどの取り組みが目指す成果・目的と、その達成のために用いられる手段との関係を、体系的かつ論理的に表現したモデルのことを指します。
特に、事業の具体的な詳細が決まっていない構想段階においては、大枠の内容・方向性を整理することに適した「体系図型のロジックモデル」2を活用することで、事業やプログラムの全体像を整理することが容易となります。
ロジックモデルについての詳細は、以下のページをご覧ください。
手順②:アウトカム群の構造を整理する
次に、上記手順で抽出したアウトカム群を、時系列レベルとその影響範囲の2つの軸で整理します3。まず、時系列レベルの整理は、「直接アウトカム」「中間アウトカム」「最終アウトカム」の3つの区分で行います。
例として、ある自治体が主体となり、企業やNPOなどと協力しながら、「介護職人材の不足」という社会課題の解決に向けた取り組みを行うプログラムを考えます。
このケースのロジックモデルは例えば以下のように作成することができます。事業が最終的に目指す状態として「介護職人材不足が解消している」というゴールが設定され、それを実現するための手段と成果の間の論理的な流れが、施策→方向性→事業(活動/アウトプット)→成果という形で整理されています。
また、「アウトカム」は、例えば中段のロジックでは、その時間軸に応じて以下のように3つの段階に整理されています。
- 介護職として長く働き続けられる環境が整っている ⇒ 直接アウトカム
- 働き手の介護業界からの離脱が低下している/離脱者の業界復帰が増加している⇒ 中間アウトカム
- 介護職人材不足が解消している ⇒ 最終アウトカム
作成:Intelligence In Society
一方、アウトカムの影響範囲による整理は、そのアウトカムが
- 個人など個の対象における変化に関するものか-①
- グループなど特定の集団における変化に関するものか-②
- 地域社会や高次の組織体などにおける変化に関するものか-③
によって行います。
上記の例では、例えば「介護職人材個人における変化」が①、「介護事業所における変化」が②、「介護業界全体における変化」が③、というように整理することができます。
このように、アウトカムを「時間軸」と「影響範囲」の2軸で整理することで、どこまでを事業・プログラムが目指す成果に含めるのか、を明確にします。
手順③:優先順位付けと指標の選択
ロジックモデル上で整理されたアウトカム群について、限られたリソースの中でその全てを評価対象とすることは現実的ではなく、工数に見合う価値も得られせん。アウトカム群について、「評価実施の必要性」と「評価実施の可能性」の両面から優先順位付けを行います3。
「必要性」の観点では、評価を行う目的が重要となります。評価を行う目的が、事業の改善に役立つ情報を得るための内部利用なのか、資金提供者などのステークホルダーに対して事業の成果を報告することなのかによっても、「必要性」の判断は異なってきます。
この際、特に重要なのが、「評価クエスチョン」を明確にすることです。ロジックモデルによってアウトカム群の構造を整理することで、アウトカム評価によってどのような問いに対する答えを明らかにしたいのか、その「評価クエスチョン」を明確にします。
また、「可能性」の観点では、技術面(適切な測定方法が存在するか)、倫理面(データの取得が倫理的な問題を伴わないか)、リソース面(費用や工数の面で許容可能か)などを踏まえて判断を行います。
これらの点を踏まえて優先付けられたアウトカム群の中から、実際に評価を行うアウトカムを選び、そのアウトカムの測定に最適と考えられる指標を選択することで、評価対象となる指標を設定します。
例えば、上記プログラムにおいて、施策の1つである「定着の促進」は新しく導入された施策で、その有効性がまだ明らかになっていないとします。この場合、「定着の促進」という施策が、実際にロジックモデル上で想定されているような直接成果や中間成果に繋がっているのかを明らかにすることが、最も重要な評価クエスチョンとなります。
その上で、プログラム対象の事業所における資格取得者数、介護支援機器の導入数、定着率や平均勤続年数、離職者の業界離脱率といったアウトカムを、評価対象の指標に設定します。
(再掲)
手順④:分析手法の決定とデータの収集
評価対象となるアウトカム指標が決まったら、それをどのような分析手法を使って把握するのが適切か、アウトカム指標の特性や外的要因による影響などを加味して決定します。上記で解説したように、多くの分析手法においてプログラム実施前後の比較データを必要とするため、プログラム開始前にもデータを収集しておく必要があることに注意が必要です。
実際のデータ収集においては、データに基づく評価結果ができる限り高い妥当性を持つよう配慮することが重要です。これには、データ収集の対象者の選定(サンプリング)、データ収集の方法・タイミングなどが含まれます。
特に、全体の中から一部の対象のみをサンプリングし、そのデータを評価対象とする場合、サンプリング対象者による結果は必ずしも全体を適切に代表するものとはならない可能性があるため、対象者の選定には細心の注意が必要です。(詳細は「外的妥当性と内的妥当性」に関する記事をご覧ください。)
また、データ収集の過程で「選択バイアス」や「情報バイアス」などの「外生要因」が生じていないか、生じている場合にはそれが評価結果にどの程度の影響を与えている可能性があるか、にも十分に留意する必要があります。
これらを踏まえて収集したデータを使い、選択した分析手法をもとに実際の分析を行います。
ここまで、事業やプログラムなどの成果に対する評価方法としての「アウトカム評価」について、主な分析手法や実施手順を解説しました。
当記事に関連するトピックについての詳細は、以下のページをご覧ください。
参考文献・注記:
1. 源由理子・大島巌(2020)『プログラム評価ハンドブック-社会課題解決に向けた評価方法の基礎・応用-』, 晃洋書房
2. 佐藤徹(2021)『エビデンスに基づく自治体政策入門』, 公職研
3. 安田節之 (2011)『プログラム評価ー対人・コミュニティ支援の質を高めるためにー』, 新曜社 などを参考。