この記事では、検定における「検出力分析」について、その意味や種類、Rのpwrパッケージを使った検出力分析によるサンプルサイズの決定方法を具体例をもとに解説します。
<目次>
検出力分析の意味と種類
「検出力分析」とは何か
仮説検定における「検出力」とは、「第2種の過誤」が発生せず、正しく対立仮説を検出できる確率のことを指します。
なお、「第2種の過誤」とは、あるサンプル集団に基づく仮説検定において、実際にはその母集団に差がある(帰無仮説が誤り)にも関わらず、誤って「差がない」と判定してしまうことを指します。
検出力は、第2種の過誤(β)を犯さない確率であり、βの補数(1 – β)として算出されます。検出力が0.9(90%)のとき、実際に帰無仮説が誤っている場合は、100回検定を行えば90回は有意な結果が得られることを意味します。一方、検定力が0.3のときは、実際は帰無仮説が誤っていても、それを3割程度の確率でしか検出することができません。
したがって、実施した仮説検定の検出力を確認することや、一定以上の検出力を確保するために仮説検定の条件を事前に整えることが重要であり、これを「検出力分析」と呼びます。
検出力分析の種類
検出力は、具体的には「有意水準」「効果量」「サンプルサイズ」の3つの要素によって決まります。検出力分析においては、これら3つの要素から検出力を計算したり、逆に検出力が目指す値になるように3つの要素を決めるということが行われます。
作成:Intelligence In Society
このうち、前者の「これら3つの要素から検出力を計算する」ことを特に、「事後分析」と呼びます。これは、実施済みの検定について、それがどの程度の検出力を持っていたのかを事後的に確認することで、「(母集団に差がないからではなく)検出力が低かったために有意な結果が得られなかった」、という可能性の有無を検討するためなどに行われます。
一方、後者の「検出力が目指す値になるように3つの要素を決める」ことは特に、「事前分析」と呼びます。これは、後述するように、ランダム化比較試験などの実験において、目指す検出力を実現するために、事前に必要なサンプルサイズを把握する目的などで行われます。
以下では、この「事前分析」によって、必要なサンプルサイズを決定する方法について、より詳細に解説します。
検出力分析によるサンプルサイズの決定方法
前提条件の決定
先述の通り、検出力は「有意水準」「効果量」「サンプルサイズ」の3つの要素によって決まります。したがって、ある検出力を実現するために必要な「サンプルサイズ」を決定するためには、それ以外の3つの要素(「有意水準」「効果量」「検出力」)を決める必要があります。
作成:Intelligence In Society
有意水準
有意水準は、その検定において許容できる、第1種の過誤を犯す危険率を指します。「第1種の過誤」とは、ある標本(サンプル集団)に基づく仮説検定において、実際にはその母集団に差がない(帰無仮説が正しい)にも関わらず、誤って「差がある」と判定してしまうことを指します。
有意水準は、「α(アルファ)」として、0(確率0%)~ 1(確率100%)の間で表されます。一般的には、0.05(5%)などに設定されることが多く、検定の性質や目的に応じて、0.01(1%)、0.1(10%)といった水準も採用されます。
有意水準αを大きくすることは、より多くの第1種の過誤の可能性を許容することになります。そのため、有意水準を大きくすると、検出力は高まるというトレードオフの関係にあります。
効果量の推定値
「効果量」とは、対立仮説のもとでの母集団における効果の大きさを意味します。2群の平均値の差に関する検定であれば、「平均値に差がある」という対立仮説と、「平均値に差がない」という帰無仮説の差分を量的に表したものに該当します。効果量が大きいほど、検出力は高くなる関係にあります。
ただし、事前分析によってサンプルサイズを求める際には、母集団における効果量の推定値を事前に把握することはできないため、実際の事前分析においては、過去の事例や慣例的に用いられる数値(下表)などが利用されます。
効果量は、例えば2群の平均値の差においては、その値そのものが使用されるのではなく、その値を標準偏差(2群に共通の母標準偏差)で標準化した値が使用されます。これは具体的には、平均値の差を標準偏差で割ったものとなります。
| 効果量:小 | 効果量:中 | 効果量:大 | |
| t検定 | 0.2 | 0.5 | 0.8 |
| 分散分析 | 0.1 | 0.25 | 0.4 |
目指す検出力
最後に、どのくらいの確率で正しい対立仮説を検出したいかを決めることで、目指す検出力を決定します。
当然、検出力は高ければ高いほど良いですが、より高い検出力を実現するには、より大きなサンプルサイズが必要になるという関係にあります。統計学者のCohenによって、0.8(80%)程度という指針が示されており、その程度の検出力を基準にすることが一般的ですが、大きなサンプルサイズの確保が可能な場合などには、より高い検出力を設定することで検定の精度を高めることが可能です。
Rのpwrパッケージによる算出
pwrパッケージとは
必要なサンプルサイズの算出にはやや複雑な計算が伴い、検定の種類による効果量の算出方法の違いも存在するため、統計解析が可能なソフトウェアなどを使用することが一般的です。ここでは、オープンソースの統計解析プログラミング言語である「R」のpwrパッケージによる算出方法を解説します。
pwrパッケージには、様々な種類の検定において検出力分析を行うための関数が用意されています。以下にその一例を記載します。
| 関数 | 検定の種類 |
| pwr.t.test() | 平均値に関するt検定(1群・2群・対応あり) |
| pwr.r.test() | 相関係数の検定 |
| pwr.p.test() | 比率の検定 |
| pwr.2p.test() | 2つの比率の差の検定 |
| pwr.f2.test() | 線形モデル(分散分析・回帰分析など) |
pwrパッケージによるサンプルサイズの算出
独立な2群のt検定において、有意水準を0.05(5%)の両側検定、効果量の推定値を0.3、目指す検出力を0.8、とした場合に必要となるサンプルサイズは以下のように算出することができます。
サンプルサイズを表す「n」を “NULL” とし、効果量を表す「d」、有意水準を表す「sig.level」、検出力を表す「power」にそれぞれ上記数値を設定します。また、検定の種類を表す「type」に “tow.sample”(独立な2群の検定)、「alternative」に “two.sided”(両側検定) を設定します。
library(pwr)
pwr.t.test(
n=NULL,
d=0.3,
sig.level = 0.05,
power = 0.8,
type = "two.sample",
alternative = "two.sided"
)
出力結果として、必要なサンプルサイズ「n」の値が返されます。このケースでは、群あたり176、2群では352のサンプルが必要であることが分かります。
Two-sample t test power calculation
n = 175.3847
d = 0.3
sig.level = 0.05
power = 0.8
alternative = two.sided
NOTE: n is number in *each* group
また、事後分析として、実施済みの検定の検出力を確認する場合は、「n」ではなく「power」を “NULL” に設定することで、実施した検定の検出力を確することができます。
pwr.t.test(
n=100,
d=0.3,
sig.level = 0.05,
power = NULL,
type = "two.sample",
alternative = "two.sided"
)
出力結果は以下のようになります。
Two-sample t test power calculation
n = 100
d = 0.3
sig.level = 0.05
power = 0.5600593
alternative = two.sided
NOTE: n is number in *each* group
ここまで、検定における「検出力分析」について、その意味や種類、Rのpwrパッケージを使った検出力分析によるサンプルサイズの決定方法を解説しました。
当記事に関連するトピックについての詳細は、以下のページをご覧ください。
参考文献:
◦栗原伸一・丸山敦史 (2017)『統計学図鑑』オーム社
◦山田剛史・杉原武俊・村井潤一郎 (2008)『Rによるやさしい統計学』