この記事では、因果関係の分析において使用される「ランダム化比較試験(RCT)」について、その意味や目的、実施方法を具体例をもとに解説します。
<目次>
ランダム化比較試験(RCT)とは何か
RCTとはどのようなものか?
ある治療法による病気の治癒に対する効果や、広告掲載による売上に対する寄与、社会課題の解決を目指すプログラムの成果など、ある処置(介入)が結果に対してどのような効果・影響を持つか、その因果効果を把握するための手法として最も代表的なものの一つが、「ランダム化比較試験 (Randomized Controlled Trials: RCT)」です。
ランダム化比較試験(RCT)は、端的には、対象となる集団に対してある処置を「無作為に割り当てる」ことで、その集団における処置の因果効果を把握する取り組みを指します。
RCTは、強い内的妥当性のもとに、処置の効果とその不確実性を定量化できることから、疫学をはじめ心理学、計量経済学、計量社会学など多くの分野において、因果関係の特定におけるゴールドスタンダードと考えれらています。
因果推論の用語では、「処置の割り当てを受けた」(ある治療法の例では、その治療を受けた)グループを「処置群(treatment group)」、「処置の割り当てを受けなかった」(その治療を受けなかった)グループを「統制群(control group)」と呼びますが、RCTにおいては、両グループにおける結果の平均値の差を、処置による因果効果と解釈することが可能です。
なお、RCTでは、一個人や一個体についての因果効果ではなく、複数の個人や個体から成る「グループ」における平均的な因果効果の把握が可能であり、これを「平均処置効果(Average Treatment Effect)」1と呼びます。
なぜRCTが必要なのか?
因果関係の特定おいて問題となる「バイアス」
そもそも「因果関係」とは、2つの要因の間にある「原因」と「結果」の関係性であり、「ある要因Xを変化させることによって(=原因)、他の要因Yも変化する(=結果)」という関係を指します。
一方、要因Xと要因Yが共に別の要因である「要因Z」によって引き起こされている場合など、実際には要因Xと要因Yの間に因果関係が存在しないにも関わらず、因果関係があるように見える関係性のことを「疑似相関(見かけ上の相関)」と呼びます。
一見したところ因果関係が存在すると思われるケースにおいても、処置群と統制群に関する「正しい比較」ができていない場合、この疑似相関を因果関係と見誤ってしまったり、因果効果を実際より過大・過少に評価してしまう可能性が生じます。
例として、国が「介護職人材不足の解消」に向けた施策を検討しており、「身体的負担の軽減」が、介護職人材の「定着の促進」に対する効果を持つ、という仮説を検証する場合を考えます。
特定の介助支援機器の導入が、介護職員の身体介護における負担(身体的負担)を軽減することが予め知られている場合、その介助支援機器を導入している施設群と、導入していない施設群における介護職員の定着率に関するデータを集め、その平均値を比較する、という形が良く行われる検証方法です。
しかし、この場合、その介助支援機器を導入している施設は、導入していない施設に比べて経営状態が良好であり、定着率の差は機器導入の有無ではなく、実際には給与水準や、情報管理システムの整備による業務のしやすさなど、機器導入以外の要因によって生じた「疑似相関」である可能性があります。
作成:Intelligence In Society
このケースにおいて施策の真の効果を適切に評価できない理由は、因果関係の特定に必要な「正しい比較」ができていないことにあります。因果効果の把握には、「施策の有無以外の点においては全て同じ」2つの対象を比較することが必要ですが、上記のケースでは2つの比較対象が「施策の有無以外の点においても異なっている」可能性が高く、「正しい比較」ができていません。
このように、「正しい比較」ができていないことで施策の真の効果が適切に捉えられていない状態を、その比較によって得た分析結果に「バイアス(bias=偏り)がある」と言います。
バイアスへの対処法としての「無作為化」
因果効果の特定において問題となる「バイアス」に対処する方法の一つが「無作為化」です。「無作為化」とは、「規則性がなく、ランダムである」という意味ですが、例えば上記の介助支援機器の例では、ある施設の集まり(集団)において、機器を導入する施設群と導入しない施設群をランダムに選ぶことに該当し、これを(処置の)「無作為割り当て」と言います。
RCTでは、ある集団に対して処置の有無を無作為に割り当てることで、「処置群」と「統制群」の2つのグループを作ります。それにより、(一定以上の対象数があれば)2つのグループが統計的に同質の集団となることで、2つのグループの結果の差を、処置の有無によるものと特定することが可能となります。
介助支援機器の例で言えば、仮に機器導入の有無を無作為に割り当てることができ、機器導入の有無以外の点において2つのグループが同質の集団となれば、両グループの定着率の差を機器導入の効果によるものと判断することが可能となります。
このようにRCTは、適切な因果効果の推定を行う上で必要となる、バイアスが適切にコントロールされた「正しい比較」を行うための非常に有効な手法であると位置づけられます。
RCTの実施方法
RCTの実施手順
実際のRCT実施の手順は各々のケースによって内容や順序にバリデーションが存在しますが、概ね以下のステップに従って行います。
①処置変数・結果変数の特定:
まず、処置を表す変数(処置変数)と、処置による効果・成果を把握するための結果を表す変数(結果変数)を特定します。先の介護施設における職員の定着率の例では、「介助支援機器の導入有無」が処置変数、「職員の定着率」が結果変数となります。
ここで重要なのは、「処置の状態を一義的に定義できる」処置変数を設定することです。例えば、新型コロナウイルスに対する「ワクチン接種」の因果効果を分析する場合、そのワクチンが「モデルナ製」なのか、「ファイザー製」なのか、あるいはそれ以外のワクチンなのかによって、その因果効果は変わってくることが考えられます。
これは、「ワクチン接種」という処置について、実際には明示されていない複数の状態が存在している (hidden/multiple version of treatment) ことを意味しています。この場合、「ワクチン接種」が具体的に何を意味しているのかが不明確であり、処置の内容を一義的に定義できないため、因果効果を適切に特定することができません。
②分析デザインの決定:
次に、RCTをどのような枠組みで実施するのか、分析のデザインを決定します。RCTには、サンプル集団全体を1つの塊りと捉えて実施する一般的な形の他に、サンプル集団をある指標に基づいて複数の塊りに分け、それぞれの塊りに対して個別にRCTを実施する方法などのバリデーションが存在します。
先述の介護施設における職員の定着率の例では、もし介助支援機器の導入の効果が介護施設の規模(職員数)によって異なる(規模が大きいほど効果が大きい)ことが事前に予測されている場合、サンプル集団を施設規模ごとに分け(層化)、それぞれの規模の施設に対してRCTを実施した結果を統合することで、より精度の高い推定が可能となります。
また、後述する「実験などの『あり方』に起因するバイアス」が生じる可能性がある場合は、バイアスの発生を防ぐ分析デザインを採用するなど、対象とするケースのドメイン知識に基づき、どのようなデザインのRCTを実施するかを検討することが、このステップに当たります。
③必要なサンプルサイズの決定:
介護施設における職員の定着率の例などのように、処置効果を推定したい対象である母集団が大きい場合、RCTを母集団全体に対して実施することは現実的ではなく、母集団の一部を抽出した「サンプル集団」に対してRCTを実施することが一般的です。その際、どの程度の数のサンプルに対してRCTを行うのか、そのサイズを決める必要があります。
一方、RCTなどの統計分析を行う際に重要となる概念の一つに、「検出力 (statistical power)」があります。検出力は、仮に「処置に効果がない」という帰無仮説が誤っていた際に、正しく帰無仮説を棄却できる確率を指します。検出力は一般的に、0.95(95%)や0.90(90%)などに設定されます。
この「検出力」として設定した値と、「処置効果の大きさ」およびその「標準偏差」の期待値(予測値)をもとに、RCTに必要なサンプルサイズを算出することが可能です2。RCTの実施には相応の費用や工数が必要となることから、求める検出力と予算・工数とのバランスを考慮しながら、実際にRCTの対象とするサンプルサイズを決定します。
④サンプル集団の選定:
サンプルサイズの決定と合わせて必要なのが、RCTの対象とするサンプル集団を選定することです。ここで重要なのは、サンプル集団が母集団を適切に代表するようにすることであり、そのためには「適切な対象集団」から「無作為抽出」によってサンプル集団を抽出し、サンプル集団に関する推定結果を母集団に対して「一般化」できることが必要となります。(無作為抽出および一般化についての詳細は後述)
介護施設における職員の定着率の例では、処置効果を知りたい対象である母集団は「全国の介護施設」です。ここで、例えば「東京都23区の介護施設」をサンプル集団としてRCTを実施した場合、「東京都23区の介護施設」が「全国の介護施設」を適切に代表しているかについて疑念が生じる可能性があります。
また同様に、「RCTへの参加を希望した介護施設」をサンプル集団としてRCTを実施した場合も、「自ら参加を希望した介護施設」は「全国の介護施設」を適切に代表していない可能性が高く、このサンプル集団に対するRCTから推定された因果効果は、母集団に対して一般化できないと考えられます。
この場合、より適切なサンプル集団は、「全国の介護施設から無作為に抽出した介護施設」、あるいは「全国の自治体から無作為に抽出した自治体にある介護施設」などとなります。
⑤処置の割り当て:
選定したサンプル集団に対して、処置を割り当てます。上述の通り、適切な因果効果を推定するためには、処置群と統制群が処置の有無以外の点で同質の集団となり、「正しい比較」ができることが必要であり、そのためにはサンプル集団に対して処置を無作為に割り当てることが重要です。
また、処置群と統制群が実際に処置の有無以外の点で同質となっているかを確認するため、それぞれのグループについて処置効果に影響する可能性のある属性についてその平均値などを比較し、属性に偏りが生じていないことを確認することも有効です。
⑥分析データの取得と分析:
最後に、処置群・統制群のそれぞれについて結果変数等のデータを取得し、分析します。データの取得においても、推定結果にバイアスを生じさせる要因が入り込まないよう注意します。
特に、後述する「情報バイアス」は、データの取得・測定に起因するバイアスですが、データ取得のプロセスや手段を適切に設計することで回避できるものも一定数存在します。また、やむを得ず発生したバイアスについて、分析段階においてその影響をある程度軽減することが可能なケースもあり、生じ得るバイアスの内容に応じて、可能な対応を実施します。
内的妥当性と一般化可能性(外的妥当性)
RCTによって因果効果の分析を行う際に理解しておく必要がある概念として、特に重要なものが「内的妥当性」と「一般化可能性(外的妥当性)」です。
RCTは、実施すればあらゆるケースで因果効果の特定が可能になる万能薬では決してなく、RCTによる結果がどの程度妥当か、どの範囲まで当てはめて考えることができるのか、といった点について考慮することは、RCTの結果を解釈する上で非常に需要なポイントとなります。
『内的妥当性(internal validity)』とは、「RCTなどを通じて得られた分析の結果が、分析の対象となったサンプル自体において、真の因果関係を表している程度」を意味します。
分析の結果が、分析の対象となったサンプル自体において、真の因果関係を表している程度
先述の通り、RCTは一般的に「内的妥当性」の点で優れた手法であると考えられていますが、これはRCTを行えば自動的に内的妥当性が担保されることを意味するものではありません。後述する「外生要因」などによって、RCTを行ったとしても分析結果に様々なバイアスが入り込む可能性があり、内的妥当性の担保には、これらの外生要因への適切な対応が必要となります。
一方、この内的妥当性と対になる概念が、「一般化可能性」および「外的妥当性」です。
『一般化可能性』とは、「サンプル集団に関して推定された因果関係が、母集団においても成立するか」に関するものです。RCTは、費用や工数などの理由から、対象の集団全体(母集団)の一部を抽出した「サンプル集団」に対して実施されることが一般的です。この際、サンプル集団に関する分析結果が、母集団においても同様に成立するかを問うのが「一般化可能性」です。
また、『外的妥当性』とは、「サンプル集団をもとに推定された母集団に関する因果関係が、別の集団においても成立するか」に関するものです。一般化可能性が、母集団における因果関係の成立有無に関するものであったのに対して、外的妥当性は、サンプル集団に関する分析結果が母集団とは異なる「別の集団」においても同様に成立するかを問うものです3。
一般化可能性 (generalizability):
サンプル集団に関して推定された因果関係が、母集団においても成立するか
外的妥当性 (external validity) :
サンプル集団をもとに推定された母集団に関する因果関係が、別の集団においても成立するか
内的妥当性の担保(外生要因への対処)
RCTの「内的妥当性」を担保するために最も重要となるのが、「外生要因(Extraneous factors/variables)」に対して適切に対処することです。
「外生要因」は、『実験や観察を通じてその効果を測定する対象である「処置(原因)」を‘除く’全ての要素の中で、「結果」に影響を与える可能性のある全ての要素』を意味します4。
先述の介護施設における職員の定着率の例では、「給与水準」や「情報管理システムの整備による業務のしやすさ」など、因果効果を推定する対象である処置「介助支援機器の導入」以外の、定着率に影響を与える全ての要因が、「外生要因」に該当します。
これらは特に、対象の選択に起因する「選択バイアス」を生じさせる外生要因ですが、選択バイアスによる推定への影響は、RCTにおいて処置の無作為割り当てを適切に行うことでコントロールすることが可能です。
一方で、RCTにおいても発生しうる外生要因に、データの測定に起因する「情報バイアス」や、実験などの「あり方」に起因するバイアスなどがあります。
データの測定に起因する「情報バイアス」:
「情報バイアス」は、データの欠測、データの入力ミス、測定方法のバラつき、記憶違い、情報の非開示、対象者のクラス分けにおけるミスなど、データの測定に起因するバイアスです。これらは、RCTを実施した場合においても分析結果にバイアスを生じさせる可能性があります。
例えば、データが観測されないことを意味する「データの欠測」では、欠測が、その変数自身の値や他の変数の値などに依存せず無作為に発生していると見なせる場合、欠測が発生している行全体を削除する「リストワイズ除去」を行っても、分析にバイアスは生じません5。しかし、そうでない場合は、リストワイズ除去によってバイアスが生じる可能性があり、多重代入法などの特殊な対応が必要となるケースがあります。
また、「測定方法のバラつき」には、処置のタイミングからデータ取得までの期間が処置群と統制群で異なっている、データの取得方法が対象者によってWEBサーベイ・紙によるサーベイなど異なっている、といったケースが該当しますが、これらは測定データに影響を与え、分析結果に無用のバイアスを生じさせる可能性があります。
実験などの「あり方」に起因するバイアス:
実験などの「あり方」、特に実験が人間の行動や心理に与える影響が、真の因果効果の把握の障害となるケースに生じるバイアスです。
「プラセボ効果 (placebo effect)」はその代表的なものですが、プラセボは「偽薬」を意味し、本来効果のない偽薬を投与された患者の症状が、偽薬の暗示的な効果によって改善することを「プラセボ効果」と呼びます。投薬以外の実験において生じる対象者への暗示的な効果ついても同じ呼び名が使われています。
また、「ピグマリオン効果 (pygmalion effect)」は、実験の対象者だけでなく、実験を行いその効果を「評価する側」も、「処置が行われた(本物の薬が投与された)」という事実を知っていることから生じる心理的な暗示によって、無意識のうちに評価にバイアスが生まれることを意味します。
これらの、処置を受ける側とそれを評価する側の双方に生じる心理的なバイアスへの対処法として広く用いられている方法が、「二重盲検法 (DBT: double blind test)」です。二重盲検法では、実験による処置の対象者だけでなく、それを評価する者も、誰がどちらのグループに割り当てられているのかを知らない状態で実験を行うことで、評価結果にバイアスが入り込むことを防ぎます。
外生要因についての詳細は、以下のページをご覧ください。
一般化可能性の担保(無作為抽出)
一方、RCTの「一般化可能性」を担保するために重要なのが、「無作為割当」と似た概念である「無作為抽出」について理解し、適切に実施することです。これは、RCTなどの手法を使って分析を行うことで、「どの集団に関する因果関係が推定できるのか」を正しく判断する上で重要となります。
「無作為割り当て」が、
サンプル(標本)を、処置群と統制群の2つのグループに無作為(ランダム)に分けることで、2つのグループが同質の集団となることを確率的に保証する
ことを指すのに対して、「無作為抽出」は、
母集団からサンプル(標本)を無作為(ランダム)に選ぶことで、サンプルと母集団が、集団のサイズ以外の全ての要素について同質の集団となることを確率的に保証する
ことを意味します。
RCTは、サンプル集団に対して処置を無作為に割り当てることで、処置による真の因果効果の推定における「内的妥当性」を高めます。しかし、「無作為割当」が約束するのは、あくまでそのサンプル集団における因果効果の推定に関する妥当性です。
一方、その結果が、本来知りたかった「母集団」における因果効果を適切に捉えているかは、そのサンプルが母集団からどのように抽出された集団であるかに依存します。「無作為抽出」は、サンプル集団が母集団を適切に代表するようにすることで、サンプル集団に関する推定結果を、母集団に対して「一般化」することを可能にします。
出典:高橋将宣(2022)5をもとに、Intelligence In Society作成
一般化可能性や外的妥当性は、RCTを行えば自動的に担保されるものではなく、分析者自らが分析対象を慎重に選び、どこまで担保することが可能かを判断しなければなりません。
特に、RCTの対象となるサンプル集団を「データが入手しやすいから」といった理由などで安易に選んだ場合、本来知りたかった対象である目的集団における因果関係と、分析によって得られた因果関係が一致せず、分析結果の一般化に問題を抱えることになるため注意が必要です。
RCTの限界と代替手法
RCTは適切に実施できれば、因果関係の特定において非常に有効な手法です。しかし、特に社会科学領域においては、RCTの実施に必要な労力や費用、対象者をランダムに割り振ることに伴う倫理的な問題などから、実施が難しいケースも多いのが現実です。既に実施中あるいは実施済みの事業や政策の評価においては、事後的にRCTを行うことは当然不可能であり、RCTの適用自体ができないケースも多く存在します。
また、仮にRCTを実施できた場合でも、実施のデザインやプロセスを慎重に設計することで、内的妥当性・一般化可能性(外的妥当性)が担保されていることが求められます。特に、RCTによって実験室のように閉ざされた環境から得られたデータによる分析結果が、より複雑な実社会における結果と一致せず、分析結果の一般化が必ずしも担保できない可能性についても指摘されています。
その一方で、RCTが適用できないケースにおいても、因果関係の推定を可能にする様々な手法が近年開発されています。これらの手法では、RCTを(分析者が観測データの生成過程を完全に掌握する)「実験デザイン」とした場合、それと同等ではないものの、類似した「自然実験」や「疑似実験」と呼ばれる状況を上手く活用することで、RCTが適用できないケースにおいても因果関係の推定が可能な状況をつくり出します。
代表的はものに、回帰非連続デザイン、パネルデータ分析(差の差法)などがありますが、これらの手法において、①因果関係の分析が可能な範囲(一般化が可能な範囲)と、②内的妥当性の強さについて整理したものが以下となります。
|
分析手法
|
①因果関係の分析が可能な範囲(一般化が可能な範囲)
|
②内的妥当性の強さ
|
|
RCT(強制参加型)
|
実験対象者
|
非常に強い
|
|
RCT(自由参加型)
|
実験対象者のうちの自発的参加者
|
非常に強い
|
|
回帰非連続デザイン
|
境界線付近の主体
|
強い
|
|
パネルデータ分析(差の差法)
|
介入グループ全体
|
若干劣る
|
|
合成コントロール法
|
介入グループ全体
|
若干劣る
|
|
傾向スコア分析
|
サンプル集団
|
若干劣る
|
|
操作変数法
|
サンプル集団
|
若干劣る
|
出典:伊藤公一朗(2017)6をもとに、Intelligence In Society作成
各手法のより詳細な解説については、以下のページをご覧ください。
ここまで、因果関係の分析において使用される「ランダム化比較試験(RCT)」について、その意味や目的、実施方法を解説しました。
当記事に関連するトピックについての詳細は、以下のページをご覧ください。
また、因果推論・プログラム評価に関する全ての記事は、以下のページからご覧いただけます。
参考文献・注記:
1. 西山慶彦・新谷元嗣・川口大司・奥井亮 (2019) 『計量経済学』有斐閣
2. 実際の計算は、「R」や「Python」などの統計分析が可能なプログラムを使うことで、簡易に算出することが可能です。
3. 外的妥当性と一般化可能性を同じものとして区別しない考え方もあり、現時点において両者を区別する整理が広く共通認識となっている訳ではありません。当記事の整理は、林岳彦 (2024)『はじめての統計的因果推論』岩波書店 などを参考にしています。
4. Simply Psychology (2023), “Extraneous Variables In Research: Types & Examples”. https://www.simplypsychology.org/extraneous-variable.html (2025年9月29日最終閲覧)
5. 高橋将宣(2022) 『統計的因果推論の理論と実装 ― 潜在的結果変数と欠測データ ― 』共立出版
6. 伊藤公一朗 (2017) 『データ分析の力 因果関係に迫る思考法』光文社新書