外的妥当性と内的妥当性|それぞれの意味と違い

この記事では、「外的妥当性(一般化可能性)」と「内的妥当性」について、それぞれの意味と違いや、実務において注意すべきポイント、各分析手法における関係性について、具体例をもとに解説します。

「外的妥当性」と「内的妥当性」の意味

プログラム評価などにおいて、RCT(ランダム化比較試験などの分析手法で事業の成果とその因果関係を評価した際、問題となるのは、「その分析結果をどこまで一般化して考えることができるのか」という点です。

より具体的には、「RCTなどの実験や自然実験を通じて得られた分析の結果が、分析の対象となったサンプル以外にも当てはまるのか」という問題であり、これを『外的妥当性(external validity)』と呼びます。なお、外的妥当性は『一般化可能性』とも呼ばれますが、厳密には両者は異なる意味を持っており、この点については後ほど解説します。

一方、この外的妥当性と対になる概念が、『内的妥当性(internal validity)』です。これは、「実験や自然実験を通じて得られた分析の結果が、分析の対象となったサンプル自体において、真の因果関係を表している程度」を意味します。

外的妥当性
分析の結果が、分析の対象となったサンプル以外にも当てはまる程度

内的妥当性
分析の結果が、分析の対象となったサンプル自体において、真の因果関係を表している程度

この点、RCTは「内的妥当性」の点では非常に優れた手法であると言えます1。しかし、「外的妥当性」が実験対象のサンプルを超えてどの範囲まで確保されるかは、対象における特性の分布や因果の構造によって様々であり、対象領域に関する知見に基づく判断が必要となります。

「一般化可能性」と「外的妥当性」の違い

先ほど述べた通り、外的妥当性は『一般化可能性』とも呼ばれますが、厳密には両者は異なる意味を持っています2。これを具体例をもとに解説します。

例として、東京都において、都民の健康増進のための施策として、40歳以上の都民を対象にスポーツクラブの割引券を配る事業を検討しており、事前調査を通じてその効果を把握したいという状況を考えます。

40歳以上の全都民を対象としたRCTを行うのは必要な費用や工数が大きすぎるため、都庁のある「新宿区」に住所のある40歳以上を対象に無作為に選ばれた人に割引券を配布し、健康増進に対する効果をRCTで測定するとします。この場合、40歳以上の全都民が「母集団」、40歳以上の新宿区在住者が「サンプル集団」となり、一般化可能性と外的妥当性はそれぞれ以下となります。

一般化可能性
40歳以上の新宿区在住者(サンプル集団)を対象としたRCTから推定された因果関係が、40歳以上の全都民(母集団)に当てはまるか

外的妥当性
上記で一般化された40歳以上の全都民(母集団)に関する因果関係が、40歳以上の全大阪府民(別の集団)に当てはまるか

一般化可能性が、「サンプル集団に関して推定された因果関係が、母集団においても成立するか」に関するものであるのに対して、外的妥当性は、「サンプル集団をもとに推定された母集団に関する因果関係が、別の集団においても成立するか」に関するものとなっています。

この意味での外的妥当性は、「移設可能性」とも呼ばれますが、これが成立するか否かは分析の対象や文脈に依存します。上記の例では、東京都民と大阪府民の健康・社会・経済関連の指標(=特性の分布)を比較することは一つの方法ですが、それらに大きな差がなくても、両自治体における他の政策など多様な要因が施策の効果に影響する可能性(=因果の構造)があり、外的妥当性が成立するためのハードルは一般的に高いものとなります。

作成:Intelligence In Society

実務において注意が必要なポイント

RCTなどの実験手法によって得られた分析結果は、適切に実施することで非常に強い「内的妥当性」を担保することができます。一方で、一般化可能性や外的妥当性は、RCTを行えば自動的に担保されるものではなく、分析者自らが分析対象を慎重に選び、どこまで担保することが可能かを判断しなければなりません。

特に、RCTの対象となるサンプル集団を「データが入手しやすいから」といった理由などで安易に選んだ場合、本来知りたかった対象である目的集団における因果関係と、分析によって得られた因果関係が一致せず、分析結果の一般化に問題を抱えることになるため注意が必要です。

上記の例では、費用・工数における理由から、本来の目的集団である40歳以上の全都民ではなく、40歳以上の新宿区在住者から無作為に対象者を選び、RCTを実施ました。40歳以上の新宿区在住者は、本来の目的集団から無作為抽出されたサンプルではないため、このサンプルに対してRCTを実施したとしても、そこから得られる因果関係を本来の目的集団に対して一般化できる保証はありません。

重要なのは、40歳以上の新宿区在住者に関する分析結果を、40歳以上の全都民に一般化しているという事実を認識し、その妥当性が対象領域に関する知見から担保できていることです。この際、もし一般化妥当性の担保が難しいのであれば、費用・工数はかかっても無作為割当の対象を40歳以上の全都民に拡げるか、別の分析方法を検討する必要があります。

各分析手法における関係性

因果関係の分析において使用される手法として代表的なものに、RCTの他に、回帰非連続デザイン、パネルデータ分析(差の差法)などがありますが、これらの手法において、①因果関係の分析が可能な範囲(一般化が可能な範囲)と、②内的妥当性の強さについて整理したものが以下となります。

分析手法
①因果関係の分析が可能な範囲(一般化が可能な範囲)
②内的妥当性の強さ
RCT(強制参加型)
実験対象者
非常に強い
RCT(自由参加型)
実験対象者のうちの自発的参加者
非常に強い
回帰非連続デザイン
境界線付近の主体
強い
パネルデータ分析(差の差法)
介入グループ全体
若干劣る
傾向スコア分析
サンプル集団
若干劣る
操作変数法
サンプル集団
若干劣る

出典:伊藤公一朗(2017)3をもとに、Intelligence In Society作成

上述の通り、RCTは非常に強い内的妥当性を持つ手法である一方、因果関係の分析が可能な範囲は、その実施方法によって変わります。「強制参加型」のRCTでは、実験対象者全体に関する因果関係の分析が可能である一方、実験への参加有無を参加者自身が決められる「自由参加型」のRCTでは、実験対象者のうちの自発的参加者のみに関する因果関係の分析が可能です。

この点は、「どの集団に対して処置を無作為に割り当てたか」を考えることで理解することができます。また、回帰非連続デザインやパネルデータ分析において因果関係の分析が可能な範囲は、境界線付近の主体や介入グループ全体など、RCTとは異なるものとなっており、各手法において因果関係の分析が可能な対象を理解した上で、分析手法の選択を行うことが重要です。

 

ここまで、「外的妥当性(一般化可能性)」と「内的妥当性」について、それぞれの意味と違いや、実務において注意すべきポイント、各分析手法における関係性について解説しました。

プログラム評価や因果推論に関する全ての記事は、以下のページからご覧いただけます。

参考文献・注記:
1. 佐藤郁哉 (2015) 『社会調査の考え方[下]』東京大学出版会
2. 外的妥当性と一般化可能性を同じものとして区別しない考え方もあり、現時点において両者を区別する整理が広く共通認識となっている訳ではありません。当記事の整理は、林岳彦 (2024)『はじめての統計的因果推論』岩波書店 などを参考にしています。
3. 伊藤公一朗 (2017) 『データ分析の力 因果関係に迫る思考法』光文社新書

関連記事