以前の記事で、二つの母平均の差の検定と推定について基本的な考え方と進め方を解説しました。
二つの母平均の差に関する検定と推定今回は、計数値である不適合品率(不良率)について、二つの母不適合品率が異なるかどうかを検定する方法と母不適合品率の差を推定する方法について解説します。
1. 適用できる場面
以下の事例を使って、二つの母不適合品率の差の検定と推定を解説します。
ある工場では、1号機と2号機の2台の設備で同じ製品を製造しています。
両設備で母不適合品率が違うかどうかを、データを取って確認することになりました。
1号機から\(n_1=200\)個の製品をサンプリングしたところ、\(x_1=12\)個の不適合品が見つかり、2号機では\(n_2=250\)個のサンプルから\(x_2=8\)個の不適合品が見つかりました。
この事例では、1号機で製造される製品を第1母集団と考え、その母不適合品率を\(P_1\)とします。
同様に2号機の製品を第2母集団と考えて、その母不適合品率を\(P_2\)とします。
このとき、第1母集団から得られた\(n_1\)個の製品の中に含まれる不適合品の数\(x_1\)個と、第2母集団から得られた\(n_2\)個の製品の中に含まれる不適合品の数\(x_2\)個から、二つの母不適合品率\(P_1\)と\(P_2\)が同じかどうかの検定と、母不適合品率の差の推定を行うことが目的です。
2. 検定に適用する基本事項
一つの母不適合品率に関する検定では、正規分布を使いましたが、二つの母不適合品率の差の検定でも、正規分布を使用します。
検定方法の説明の前に、検定に必要な基本事項を確認しておきます。
第1母集団から得られた\(x_1\)は二項分布\(B(n_1,P_1)\)に従い、第2母集団から得られた\(x_2\)は二項分布\(B(n_2,P_2)\)に従います。
なお、\(x_1\)と\(x_2\)は互いに独立になるようにデータを取ると仮定します。
このとき、得られたデータから、以下のように母不適合品率\(P_1\)と\(P_2\)を推定できます。
\(\hat{P}_1=p_1=\displaystyle \frac{x_1}{n_1}\)
\(\hat{P}_2=p_2=\displaystyle \frac{x_2}{n_2}\)
以前の記事で、\(p_1\)と\(p_2\)は、それぞれ正規分布\(N(P_1,P_1(1-P_1)/n_1))\)と\(N(P_2,P_2(1-P_2)/n_2))\)に近似的に従うことを解説しました。
一つの母不適合品率に関する検定と推定ここから、以下の基本事項を導けます。
\(p_1-p_2\)は近似的に正規分布\(N \left (P_1-P_2,\displaystyle \frac{P_1(1-P_1)}{n_1}+\frac{P_2(1-P_2)}{n_2} \right )\)に従う。
(分散の加法性)
\(p_1-p_2\)を標準化すると、
\(u=\displaystyle \frac{p_1-p_2-(P_1-P_2)}{\sqrt{\displaystyle \frac{P_1(1-P_1)}{n_1}+\frac{P_2(1-P_2)}{n_2}}} \qquad (1)\)
は近似的に標準正規分布\(N(0,1^2)\)に従う。
3. 二つの母不適合品率の差に関する検定
二つの母不適合品率の差の検定では、帰無仮説\(H_0:P_1=P_2\)を設定します。
帰無仮説\(H_0\)が成り立つと仮定するとき、\(P_1=P_2=P\)とすると、(1)式は以下のようになります。
\(u=\displaystyle \frac{p_1-p_2}{\sqrt{P(1-P) \left (\displaystyle \frac{1}{n_1}+\frac{1}{n_2} \right )}} \qquad (2)\)
このとき、\(u\)は\(H_0\)が成り立つ下では近似的に標準正規分布\(N(0,1^2)\)に従います。
\(P\)は未知なので、以下のような推定量を用います。
\(P_1=P_2=P\)のとき、第1母集団と第2母集団は母不適合品率について同じ母集団と考えられます。
そこで、両者を合わせた母集団から\(n_1+n_2\)個のサンプルを採取して、\(x_1+x_2\)個の不適合品が見つかったとみなせます。
よって、\(P\)の推定量\(\hat{P}\)は、
\(\hat{P}=\bar{p}=\displaystyle \frac{x_1+x_2}{n_1+n_2}\)
と表せます。
\(P\)の同時推定量\(\bar{p}\)を(2)式に代入することで、検定統計量
\(u_0=\displaystyle \frac{p_1-p_2}{\sqrt{\bar{p}(1-\bar{p}) \left (\displaystyle \frac{1}{n_1}+\frac{1}{n_2} \right )}}\)
を得られ、\(u_0\)は標準正規分布\(N(0,1^2)\)に近似的に従います。
以上の性質を使って、二つの母不適合品率の差の検定を行います。
3-1. 二つの母不適合品率の差に関する検定手順
手順1. 帰無仮説\(H_0\)と対立仮説\(H_1\)を設定する。
検定の目的に応じて、(1)~(3)のいずれかを選択します。
(1) \(H_0:P_1=P_2\)
\(H_1:P_1 \neq P_2\) (両側検定)
(2) \(H_0:P_1=P_2\)
\(H_1:P_1 > P_2\) (右片側検定)
(3) \(H_0:P_1=P_2\)
\(H_1:P_1 < P_2\) (左片側検定)
手順2. 有意水準\(\alpha\)を決める。
通常は、\(\alpha=0.05\)とします。
手順3. 手順1(仮説)と手順2(有意水準)に対応した棄却域を決める。
(1)棄却域:\(|u_0|\ge K_{\alpha/2}\) (両側検定)
(2)棄却域:\(u_0 \ge K_{\alpha}\) (右片側検定)
(3)棄却域:\(u_0 \le -K_{\alpha}\) (左片側検定)
手順4. 採取した第1母集団のデータ\((n_1,x_1)\)と、第2母集団のデータ\((n_2,x_2)\)から検定統計量\(u_0\)を計算する。
\(\bar{p}=\displaystyle \frac{x_1+x_2}{n_1+n_2}\)
\(u_0=\displaystyle \frac{p_1-p_2}{\sqrt{\bar{p}(1-\bar{p}) \left (\displaystyle \frac{1}{n_1}+\frac{1}{n_2} \right )}}\)
手順5. 判定する。
\(u_0\)が棄却域に入れば、有意水準\(\alpha\)で有意と判定し、帰無仮説\(H_0\)を棄却して対立仮説\(H_1\)を採択します。
\(u_0\)が棄却域に入らなければ、有意水準\(\alpha\)で有意でないと判定し、帰無仮説\(H_0\)を棄却しません。
3-2. 二つの母不適合品率の差に関する検定の実施例
事例1について、検定手順に従って検定してみましょう。
手順1. 帰無仮説\(H_0\)と対立仮説\(H_1\)を設定する。
1号機と2号機で母不適合品率が異なるかを知りたいので、両側検定で帰無仮説と対立仮説を設定します。
\(H_0:P_1=P_2\)
\(H_1:P_1 \neq P_2\)
手順2. 有意水準\(\alpha\)を決める。
\(\alpha=0.05\)
手順3. 棄却域を決める。
棄却域:\(|u_0|\ge K_{0.025}=1.96\)
手順4. 検定統計量\(u_0\)の値を計算する。
得られたデータより、以下のように検定統計量を求めます。
\(p_1=\displaystyle \frac{x_1}{n_1}=\frac{12}{200}=0.06\)
\(p_2=\displaystyle \frac{x_2}{n_2}=\frac{8}{250}=0.032\)
\(\bar{p}=\displaystyle \frac{x_1+x_2}{n_1+n_2}=\frac{12+8}{200+250}=0.044\)
\(u_0=\displaystyle \frac{p_1-p_2}{\sqrt{\bar{p}(1-\bar{p}) \left (\displaystyle \frac{1}{n_1}+\frac{1}{n_2} \right )}}\)
\(=\displaystyle \frac{0.06-0.032}{\sqrt{0.044(1-0.044) \left (\displaystyle \frac{1}{200}+\frac{1}{250} \right )}}\)
\(=1.439\)
手順5. 判定する。
\(u_0=1.439 \lt K_{0.025}=1.96\)で検定統計量\(u_0\)は採択域に入るので有意ではありません。
よって帰無仮説\(H_0\)を棄却できず、1号機と2号機で母不適合品率\(P_1\)と\(P_2\)は異なるとは言えないと判断できます。
4. 二つの母不適合品率の差の推定
母不適合品率の差\(P_1-P_2\)について、点推定と区間推定ができます。
4-1. 二つの母不適合品率の差の推定手順
\(P_1-P_2\)の点推定はデータの不適合品率の差 \(p_1-p_2=\displaystyle \frac{x_1}{n_1}-\frac{x_2}{n_2}\)を使えばよいです。
\(P_1-P_2\)の区間推定については基本事項2から、
\(u=\displaystyle \frac{p_1-p_2-(P_1-P_2)}{\sqrt{\displaystyle \frac{P_1(1-P_1)}{n_1}+\frac{P_2(1-P_2)}{n_2}}}\)
は近似的に標準正規分布\(N(0,1^2)\)に従うので、
\(Pr \left(-K_{\alpha/2} <\displaystyle \frac{p_1-p_2-(P_1-P_2)}{\sqrt{\displaystyle \frac{P_1(1-P_1)}{n_1}+\frac{P_2(1-P_2)}{n_2}}}<K_{\alpha/2} \right)\)
\(=1-\alpha \)
かっこの中を変形すると、以下のようになります。
\(Pr \left ( p_1-p_2-K_{\alpha/2} \sqrt{\displaystyle \frac{P_1(1-P_1)}{n_1}+\frac{P_2(1-P_2)}{n_2}} <P_1-P_2 \right.\)
\(\left. <p_1-p_2+K_{\alpha/2} \sqrt{\displaystyle \frac{P_1(1-P_1)}{n_1}+\frac{P_2(1-P_2)}{n_2}} \right )\)
\(=1-\alpha \)
ここで、平方根の中の\(P_1\)と\(P_2\)をそれぞれの推定量\(p_1\)と\(p_2\)に置き換えたかっこの中が信頼区間です。
二つの母不適合品率の差の推定手順をまとめると、以下のようになります。
点推定:
\(\widehat{P_1-P_2}=p_1-p_2=\displaystyle \frac{x_1}{n_1}-\frac{x_2}{n_2}\)
区間推定:信頼率\(1-\alpha\)の信頼区間
\( \left ( p_1-p_2-K_{\alpha/2} \sqrt{\displaystyle \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}} , \right .\)
\( \left . p_1-p_2+K_{\alpha/2} \sqrt{\displaystyle \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}} \right )\)
4-2. 二つの母不適合品率の差の推定の実施例
事例1について、点推定と区間推定を行ってみましょう。
点推定:
\(\widehat{P_1-P_2}=p_1-p_2=\displaystyle \frac{x_1}{n_1}-\frac{x_2}{n_2}=\frac{12}{200}-\frac{8}{250}\)
\(=0.06-0.032=0.008\)
区間推定:信頼率95%の信頼区間を求めます。
\( \left ( p_1-p_2-K_{0.025} \sqrt{\displaystyle \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}} , \right .\)
\( \left . p_1-p_2+K_{0.025} \sqrt{\displaystyle \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}} \right )\)
\( = \left (0.028-1.96 \sqrt{\displaystyle \frac{0.06(1-0.06)}{200}+\frac{0.032(1-0.032)}{250}} , \right .\)
\( \left . 0.028+1.96 \sqrt{\displaystyle \frac{0.06(1-0.06)}{200}+\frac{0.032(1-0.032)}{250}} \right )\)
\(=(-0.011, 0.067)\)
5. 実践のためのアドバイス
二つの母不適合品率の検定や推定では、統計量が従う分布について二項分布を正規分布に近似できる性質を使い、分散の加法性により一つの正規分布を使って検定・推定を行います。
最終的には正規分布を使うとしても、基本は二項分布であることを認識しておきましょう。
6. おわりに
今回は、二つの母不適合品率の差に関する検定と推定について解説しました。
本記事では母不適合品率で解説しましたしたが、割合で表されるデータであれば今回紹介した検定や推定方法を適用できます(二項分布に従うことが前提)。
製造業においては、工程内検査や出荷前検査で合否判定を行うことが多いので、その結果を使って不適合品率の比較をしたいときなどに使える方法です。