この記事では、仮説検定における「多重検定」について、その意味と問題点、代表的な2つの対処法を具体例をもとに解説します。
<目次>
多重検定の意味とその問題点
多重検定とは何か
仮説検定を行う際に注意が必要なものの一つに、「多重検定」があります。「多重検定」とは、同一の実験や検証対象から得られたデータに対して、検定を複数回繰り返すことを指します。
例えば、ある企業で社員の定着率の低さが課題となっており、それを改善するために、残業時間、有休取得率、在宅勤務率など定着率に関係すると思われる全部で10個の指標について、定着率との関係を統計的に把握したいケースを考えます。
この時、対応方法の一つは、10個の指標を何らかの方法で1つの指標に統合し(標準化し平均値を取るなど)、その統合した指標と定着率との間の関係を検定することです。この場合は、通常の仮説検定の考え方をそのまま適用することができ、各々の指標と定着率の関係の有意性は分かりませんが、統合した指標と定着率の関係の有意性を判断することが可能です。
一方、10個の指標それぞれについて、定着率との関係を個別に検定することは「多重検定」に該当します。この場合、以下に述べるような問題が生じるため、通常の仮説検定の考え方をそのまま適用した場合、不適切な検定となります。
なぜ多重検定が問題なのか
多重検定に問題があるのは、検定を複数回繰り返すことで、有意水準が大きくなり、帰無仮説が棄却されやすくなってしまうためです。
検定の基準となるのは、第1種の過誤を犯さない確率 (1-α) であり、仮に有意水準αが5%の場合、95%となります。しかし、検定をn回繰り返した場合、検定の基準は (1-α) のn乗となり、実質的な有意水準である (1-(1-α)n) は、本来の水準であるαより小さくなってしまいます。
先の例では、仮に10個の指標全てについて帰無仮説が真(定着率との有意な関係がない)である場合に、それらの一つでも誤って棄却してしまう確率は、 (1-0.9510) ≅ 0.4となります。これは、各指標を個別に検定した場合、5%の確率でしか生じないと考えていた第1種の過誤が、実際には40%の確率で生じることを意味しています。
このように、多重検定の状況下では、第1種の過誤の発生確率である「検定のサイズ」が意図したように制御できず、検定が甘くなることで、誤って有意と判断してしまう確率が高くなります。これを「多重検定問題」と呼びます。
作成:Intelligence In Society
多重検定問題への対処法
①ファミリーワイズエラー率(FWER)の制御
ボンフェローニ検定
多重検定問題への対処法として代表的なものの一つは、全ての帰無仮説の集合に対して、そのうちの一つでも誤って棄却される確率(第1種の過誤の確率)を制御する方法です。
この「帰無仮説の集合に対して、そのうちの一つでも誤って棄却される確率」のことをファミリーワイズエラー率(family-wise error rate:FWER)と呼び、これを5%などに制御します。
FWER制御では、検定の繰り返し数に応じて有意水準を小さくすることで、棄却域が広がることを防ぎます。具体的には、「全体としての棄却率 (α)」を「検定の繰り返し数 (N)」で割った値を、各検定における有意水準とします。
全体としての棄却率 (α) / 検定の繰り返し数 (N)
このような方法で棄却域(有意水準)を調整する方法は「ボンフェローニ検定 (Bonferroni test)」と呼ばれます。先の例において、10個の指標に対して、全体としての棄却率5%でFWERの制御を行う場合は、
となり、個々の指標に対する検定において0.5%の棄却率を適用することで、全体としての有意水準を0.5×10=5%以下に制御することができます。
ボンフェローニ検定の課題と改善手法
ボンフェローニ検定では、単純に有意水準を帰無仮説の数で割るため、棄却域が小さくなり過ぎることによる検出力の低下が大きいという課題があります。特に、帰無仮説の数が5を超えると、検定が厳しくなり過ぎる傾向が強くなります。
この欠点を部分的に緩和する方法が、「ボンフェローニ・ホルム検定(Bonferroni-Holm test)」と呼ばれる手法です。ボンフェローニ検定では、全ての帰無仮説に対して同じ有意水準(上記の例では0.5%)を使用しましたが、ボンフェローニ・ホルム検定では、まだ棄却されていない残りの帰無仮説の数に応じて有意水準を変更するため、より多くの帰無仮説を棄却できる可能性があります。
ボンフェローニ・ホルム検定ではまず、最も検定統計量が大きい(p値が小さい=最も棄却されやすい)ものから順に帰無仮説を並び替えます。そして、帰無仮説の総数 (N)から、既に棄却された帰無仮説の数(M)を引いた、まだ棄却されていない帰無仮説の集合(N-M)に対してFWERを制御します。
全体としての棄却率 (α) / まだ棄却されていない帰無仮説の数 (N-M)
先の例では、ボンフェローニ・ホルム検定における10個の帰無仮説に対する有意水準は以下のようになります。この時、各検定におけるp値が有意水準より小さければ、その帰無仮説を棄却し、次の検定へと移ります。いずれかの検定で帰無仮説を棄却できなければ、そこで全ての検定を終了します。
2番目に小さいp値:5%/9 = 0.556%
3番目に小さいp値:5%/8 = 0.625%
:
9番目に小さいp値:5%/2 = 2.5%
最も大きいp値 :5%/1 = 5%
②偽発見率(FDR)の制御
ベンジャミン・ホッシュバーグ検定
多重検定問題に対するもう一つの主な対処法は、正しい帰無仮説を誤って棄却する割合を意味する偽発見率(false discovery rate : FDR)を制御する方法です。
FWER制御が、「全ての帰無仮説の集合に対して、そのうちの一つでも誤って棄却される確率」を制御の対象としていたのに対し、FDR制御では、「帰無仮説が誤って棄却される割合」を一定以下に抑えることを目的としています。これにより、第1種の過誤の発生確率は高まるものの、より高い検出力の確保が可能となります。
この方法は、ベンジャミン・ホッシュバーグ検定(Benjamini-Hochberg test)と呼ばれ、まずFWERと同様に最も検定統計量が大きい(p値が小さい=最も棄却されやすい)ものから順に帰無仮説を並び替えます。そして、並び替えた順番の一番後ろから、全体としての偽発見率 (α)に並び順(J)を乗じ、それを帰無仮説の総数 (N)で割った値を、各検定における棄却率とします。
全体としての偽発見率 (α)×並び順 (J) / 帰無仮説の総数 (N)
先の例での、ベンジャミン・ホッシュバーグ検定における10個の帰無仮説に対する有意水準は以下のようになります。この時、各検定におけるp値が有意水準より大きければ棄却せずに次へ進み、有意水準より小さければ、その帰無仮説を棄却するとともに、それ以降の全ての帰無仮説を棄却して検定を終了します。
2番目に大きいp値:5%×9/10 = 4.5%
3番目に大きいp値:5%×8/10 = 4%
:
9番目に大きいp値:5%×2/10 = 1%
最も小さいp値 :5%×1/10 = 0.5%
各手法をどう使い分けるか
FWER制御とFDR制御は、検定の目的やその結果の使用方法に応じて、どちらの方法がより適切かを判断し選択することが必要です。
複数ある帰無仮説の全てについて第1種の過誤を抑制し、偽検出を避けたい場合は、帰無仮説が一つでも誤って棄却される確率を制御するFWER制御を実施する必要があります。
先のある企業における社員の定着率の例では、仮に10個の指標のどれが定着率と有意な関係にあるかによって、企業の取り組みの方向性や投資対象が大きく変わる場合、偽検出を極力避けるためにFWER制御を行うことが妥当です。
一方、同じ例において、10個の指標のいくつかが定着率と有意な関係にあることを大まかに確認することが目的で、その中の一部に偽検出が含まれることは許容できるという場合は、FDR制御によって全体における偽検出の発生割合をコントロールする方法が適しています。
多重検定が生じるケースでは、それによって生じる問題や影響を正しく認識し、検定の目的に即して適切な対処法を選択することが重要となります。
ここまで、仮説検定における「多重検定」について、その意味と問題点、代表的な2つの対処法を解説しました。
当記事に関連するトピックについての詳細は、以下のページをご覧ください。
参考文献:
◦栗原伸一・丸山敦史 (2017)『統計学図鑑』オーム社
◦Holm, Sture (1979) “A Simple Sequentially Rejective Multiple Test Procedure.” Scandinavian Journal of Statistics, vol. 6, no. 2, pp. 65–70.
◦Benjamini, Yoav, and Yosef Hochberg. (1995) “Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing.” Journal of the Royal Statistical Society. Series B (Methodological), vol. 57, no. 1, pp. 289–300
◦川口康平・澤田真行 (2024)『因果推論の計量経済学』日本評論社