これまで、計量値や計数値について、サンプルの統計量を基に、母集団の平均や分散などの母数を検定する方法を紹介してきました。
検定で判断しようとするにあたり実務でよく問題となるのは、検定で判断するためにサンプルはいくつ準備すればよいか、です。
そこで、今回はサンプルサイズをいくつにすべきかを決める方法を解説します。
1. 検定における2種類の誤り
サンプルサイズを決めるには、まず検定における2種類の誤りを理解する必要があります。
検定をする際は、はじめに帰無仮説
本当はどちらの仮説が成り立つのか、そして検定結果はどちらの仮説を採択したかで、2種類の誤りが発生する可能性があるます。
本当は帰無仮説
第1種の誤りを犯す確率は検定時に設定する有意水準
これは、帰無仮説が成り立っていて従来と変わっていないのにもかかわらず、変わったと早とちりして処置してしまう誤りだからです。
そして、本当は帰無仮説
第2種の誤りを犯す確率を
これは、本当は帰無仮説
ここで、対立仮説
第1種の誤りと第2種の誤りをまとめると、以下のようになります。
本当に成り立っている仮説 | |||
検定結果 | 有意でない |
正しい (確率: |
第2種の誤り (確率: |
有意である |
第1種の誤り (確率: |
正しい (確率: |
2. 検定における検出力の考え方
サンプルサイズを決めるためには、検出力の考え方がとても重要になります。
そこで、まずは検出力の考え方を詳しく解説します。
2-1. 検出力とは
母分散が既知の場合の母平均の検定を例に、検出力を求めてみましょう。
両側検定では、
帰無仮説
を設定します。
有意水準は
このとき、棄却域は以下のようになります。
棄却域:
対立仮説
このとき、
ここで、
①

②

赤色の分布が、対立仮説が正しい場合の
図の着色部分が検出力で、
これは、直感的に考えても理解しやすい考え方でしょう。
と表せます。
2-2. サンプルサイズと検出力の関係
次に、サンプルサイズと検出力の関係を見ていきます。
常識的に考えれば、サンプルサイズが大きいほど検出力が上ることは理解できると思いますが、それを数字で確認しましょう。
n=9 | n=25 | |
---|---|---|
-1 | 0.851 | 0.999 |
-0.8 | 0.670 | 0.979 |
-0.6 | 0.437 | 0.851 |
-0.4 | 0.224 | 0.516 |
-0.2 | 0.092 | 0.170 |
-0.1 | 0.060 | 0.079 |
0 | 0.050 | 0.050 |
0.1 | 0.060 | 0.079 |
0.2 | 0.092 | 0.170 |
0.4 | 0.224 | 0.516 |
0.6 | 0.437 | 0.851 |
0.8 | 0.670 | 0.979 |
1 | 0.851 | 0.999 |
上記のデータをグラフにした検出力曲線は、以下のようになります。

つまり、
実際は
しかし、検出力を上げるためにサンプルサイズ
そうすると、技術的には無視できるような違いであっても、検定結果は有意になってしまうことになります。
サンプルサイズ
技術的には有意になると思っていても、検定結果が有意にならなかったときは、サンプルサイズ
このように、サンプルサイズ
3. サンプルサイズの決め方
それでは、サンプルサイズ
帰無仮説を
このとき、
もう少しイメージしやすいよう具体的に、
すると解決したい問題は、「\(d \ge 1.0\)のとき、検出力が
つまり、サンプルサイズ
2-1項の(2)式に
ここで、右辺の第1項は非常に小さく無視できるので、
を満足する
正規分布表を使うと、
が得られます。
これを
となります。
これを一般化すると、
で求められます。
以上、母分散が既知の場合の母平均の検定の例で、サンプルサイズの決め方を解説しました。
しかし、検定には1つの母分散の検定、2つの母平均の差の検定など、さまざまな種類が存在します。
それぞれの検定方式についてサンプルサイズの求め方を解説すると膨大な量となるため、ここでは詳細な解説は割愛します。
各検定方式におけるサンプルサイズの決め方は、以下の書籍に詳しく書かれていますのでこちらを参照してください。
4. おわりに
今回は、母分散が既知のときの母平均の検定を例にして、対立仮説を採択するためのサンプルサイズの決め方を解説しました。
サンプルサイズをいくつにしたらよいかを理論的に説明したいときは、今回解説した考え方を使ってサンプルサイズを求めてください。