第1種の過誤と第2種の過誤|それぞれの意味と関係性

この記事では、検定における「第1種の過誤 (Type 1 Error)」と「第2種の過誤 (Type 2 Error)」について、それぞれの意味や両者の関係性を具体例をもとに解説します。

第1種の過誤とは

「第1種の過誤 (Type 1 Error)」とは、ある標本(サンプル集団)に基づく仮説検定において、実際にはその母集団に差がない(帰無仮説が正しい)にも関わらず、誤って「差がある」と判定してしまうことを指します。

帰無仮説が正しい場合であっても、検定統計量が偶然にも大きなものであったために、誤って帰無仮説を棄却してしまう状況に当たります。第1種の過誤を犯す確率(危険率)は「α(アルファ)」として、0(確率0%)~ 1(確率100%)の間で表されます。

例えば、ある事業の効果を測定するためにランダム化比較試験 (RCT)を行い、処置を受けるグループ(処置群)と受けないグループ(統制群)の目的変数について、その平均値を標準誤差(の推定値)で割ったものを、検定統計量とするケースを考えます。

ここで例えば、αを0.05(5%)と設定することは(これを「有意水準」と呼びます)、実際にはその事業に効果はないにも関わらず、「効果あり」と判定してしまう「第1種の過誤」の発生確率が、5%ほどあることを意味します。

なお、第1種の過誤の発生確率は、「検定のサイズ」とも呼ばれます。

第2種の過誤とは

仮説検定における誤りには、「第1種の過誤」の他にもう一種類あり、それが「第2種の過誤」と呼ばれるものです。

「第2種の過誤 (Type 2 Error)」とは、ある標本(サンプル集団)に基づく仮説検定において、実際にはその母集団に差がある(帰無仮説が誤り)にも関わらず、誤って「差がない」と判定してしまうことを指します。

対立仮説が正しい場合であっても、検定統計量が帰無仮説と区別できるほど大きくないために、帰無仮説を棄却できない状況に当たります。第2種の過誤を犯す確率は「β(ベータ)」として、こちらも0(確率0%)~ 1(確率100%)の間で表されます。

先ほどの例では、仮にβが0.1(10%)であった場合、実際にはその事業に効果があるにも関わらず、「効果なし」と判定してしまう「第2種の過誤」の発生確率が10%ほどある、ということを意味します。

第一種の過誤と第二種の過誤

作成:Intelligence In Society

第1種の過誤と第2種の過誤の関係

第2種の過誤と「検出力」

「第2種の過誤」が発生せず、正しく対立仮説を検出できる確率を、検定の「検出力 (power)」と呼びます。これは、処置群と統制群に実際に差がある場合に、差があることを正しく判定できる能力のことを指し、その検定がいかに優れているかを表します。

検出力は、第2種の過誤を犯さない確率であり、βの補数(1 – β)として算出されます。先ほどの例で、仮にβが0.1である場合には、検出力は0.9(90%)となりますが、これは100回検定を行った場合に、90回は事業により生じた本来の差(効果)を検出できることを意味します。

二つの過誤の関係性

検定においては、第1種の過誤と第2種の過誤がどちらも小さくなるような検定が理想ですが、実際にはこの2つはトレードオフの関係にあります。αを小さくすることで帰無仮説を誤って棄却しないようにすると、対立仮説が正しい場合にそれを正しく検出することが難しくなるため、どちらの確率も同時に小さくするような閾値(限界値)を設定することはできません。

そのため仮説検定においては、検定のサイズであるαをある水準(5%など)に設定した上で、その条件下において検出力(1 – β)が最大となる(第2種の過誤の確率βが最小となる)棄却域を選ぶ、という方法が取られます(ネイマン・ピアソンの基準)。

偽陽性と偽陰性

また、第1種の過誤は「偽陽性 (false positive)」、第2種の過誤は「偽陰性 (false negative)」と呼ばれることもあります。これは、病気の有無を判定する検定において、実際は病気ではないのに病気と判定される(偽陽性)、実際は病気なのに病気ではないと判定される(偽陰性)、といった状況を表す表現と理解することができます。

検定のサイズや検出力を決定する際は、「偽陽性」や「偽陰性」が持つ影響の大きさを考慮し、どちらかをより重視した設定が必要となることもあります。例えば、ある深刻な病気の有無に関するリスクを検定するケースでは、対象者に不要な精密検査を受けさせることになる「偽陽性」に比べて、対象者に深刻な病気のリスクがあることを見逃してしまう「偽陰性」の方が、より重大な影響を持つと考えらえます。

このような場合には、ある程度の「偽陽性」を許容してでも「偽陰性」を可能な限り少なくするため、第1種の過誤の確率αを大きく設定することで、より高い検出力を持つ検定を行うことなどが検討されます。

この記事では、検定における「第1種の過誤 (Type 1 Error)」と「第2種の過誤 (Type 2 Error)」について、それぞれの意味や両者の関係性を解説しました。

当記事に関連するトピックについての詳細は、以下のページをご覧ください。

参考文献:
・栗原伸一・丸山敦史 (2017)『統計学図鑑』オーム社
・川口康平・澤田真行 (2024)『因果推論の計量経済学』日本評論社
・永田靖 (1992)『入門 統計解析法』日科技連出版社