データを採取して度数分布表を作成することがあります。
度数分布表とは、得られたデータがどの範囲にいくつ存在するかをまとめた表で、例えば曜日別に交通事故発生件数をまとめた表が該当します。
このとき、得られた度数分布が何らかの確率分布に従うと言えるかどうかを、統計的に判断したいとしましょう。
このような場面で使える方法が、適合度の検定です。
今回は、適合度の検定方法を解説します。
1. 適用できる場面
以下の事例を使って、適合度の検定を解説します。
A町の1年間で起きた交通事故件数は、曜日別にまとめると以下のようになりました。
日 | 月 | 火 | 水 | 木 | 金 | 土 | 計 |
---|---|---|---|---|---|---|---|
22 | 12 | 13 | 6 | 8 | 12 | 17 | 90 |
このとき、交通事故は特定の曜日に起こっていると言えるでしょうか。
この事例では、「各曜日において交通事故が同じ確率で発生する」を帰無仮説とし、「曜日によって交通事故の発生する確率が異なる」を対立仮説として適合度の検定を行えば、特定の曜日に交通事故が起こりやすいかを判断できます。
データが度数分布で得られたとき、その度数分布が何らかの確率分布にしたがって生じたものかどうかを検定する方法が適合度の検定です。
適合度という名称を見ると、帰無仮説が成り立つことを統計的に示すための方法と思われるかもしれませんが、これまでの検定と同様に、検定結果が有意でない場合でも帰無仮説が成り立つと積極的に結論付けることはできません。
2. 適合度の検定に適用する基本事項
適合度の検定方法の説明の前に、必要な基本事項を確認しておきます。
データの範囲を\(n\)個のクラスに分けて、それぞれのクラスに属する度数を\(x_1,x_2,\cdots,x_n\)とします。
また、度数の合計(総度数)を以下とします。
\(T=x_1+x_2+\cdots+x_n\)
適合度の検定では、帰無仮説\(H_0\)を「得られたデータはある確率分布に従う」を設定します。
そこで、ある分布の下で総度数\(T\)を\(n\)個のクラスに分け、帰無仮説が成り立つときに各クラスの度数がいくつになるはずかを計算して、それを\(t_1,t_2,\cdots,t_n\)と表します。
\(t_i\)は帰無仮説の下で期待される度数なので、期待度数と呼ばれます。
適合度の検定では、得られた度数\(x_i\)と期待度数\(t_i\)のギャップの大きさを測ることで、帰無仮説を棄却するかどうかを判断します。
このとき、以下の基本事項を利用します。
帰無仮説\(H_0\)が成り立つとき、
$$ \chi_0^2=\displaystyle \sum_{i=1}^{n} \frac{(x_i-t_i)^2}{t_i} \qquad (1)$$
は、自由度\(\phi=n-1\)の\(\chi^2\)分布に近似的に従う。
\((1)\)式の右辺の各項の平方根を規準化残差\(e_i\)と呼び、
$$e_i=\displaystyle \frac{x_i-t_i}{\sqrt{t_i}}$$
と表せる。
帰無仮説\(H_0\)が成り立つとき、\(e_i\)は近似的に標準正規分布\(N(0,1^2)\)に従う。
3. 適合度の検定
それでは、適合度の検定手順を見ていきます。
基本事項1で定義した\(\chi_0^2\)を検定統計量として、\(\chi^2\)分布を使って検定します。
\(\chi^2\)分布は、一つの母分散の検定でも利用されていましたね。
3-1. 適合度の検定手順
手順1. 帰無仮説\(H_0\)と対立仮説\(H_1\)を設定する。
\(H_0\):データはある「特定の分布」に従う
\(H_1\):データは\(H_0\)で示した「特定の分布」に従わない
これまでの検定と違って、両側検定や片側検定の区別はありません。
また、「特定の分布」は解析の目的により定めます。
手順2. 有意水準\(\alpha\)を決める。
通常は、\(\alpha=0.05\)とします。
手順3. 棄却域を決める。
棄却域:\(\chi_0^2 \ge \chi^2(\phi,\alpha)\)
手順4. 度数分布\(x_1,x_2,\cdots,x_n\)から、期待度数\(t_i\)と検定統計量\(\chi_0^2\)を計算する。
\(\chi_0^2=\displaystyle \sum_{i=1}^{n} \frac{(x_i-t_i)^2}{t_i},\quad \phi=n-1\)
手順5. 判定する。
\(\chi_0^2\)が棄却域に入れば、有意水準\(\alpha\)で有意と判定し、帰無仮説\(H_0\)を棄却して対立仮説\(H_1\)を採択します。
\(\chi_0^2\)が棄却域に入らなければ、有意水準\(\alpha\)で有意でないと判定し、帰無仮説\(H_0\)を棄却しません。
手順6. 有意だった場合は、基準化残差\(e_i\)を計算する。
\(e_i\)の絶対値が大きなクラスに注目します。
\(e_i\)の絶対値が2.5程度以上のクラスは、特徴のあるクラスを推定できます。
なお、有意だった場合でも、\(e_i\)の絶対値が2.5以上のクラスが存在しない場合もあります。
3-2. 適合度の検定の実施例
事例1について、検定手順に従って検定してみましょう。
手順1. 帰無仮説\(H_0\)と対立仮説\(H_1\)を設定する。
A町で発生する交通事故は曜日で発生確率が異なるかを知りたいので、以下のように帰無仮説と対立仮説を設定します。
\(H_0\):各曜日とも同じ確率で交通事故が発生する
\(H_1\):曜日によって交通事故の発生する確率が異なる
手順2. 有意水準\(\alpha\)を決める。
\(\alpha=0.05\)
手順3. 棄却域を決める。
棄却域:\(\chi_0^2 \ge \chi^2(6,0.05)=12.59\)
手順4. 期待度数\(t_i\)と検定統計量\(\chi_0^2\)を計算する。
帰無仮説が成り立つとき、どの曜日も等しい確率で交通事故が発生するので、交通事故件数の合計を等しい確率(1/7)で各曜日に配分し、それを期待度数\(t_i\)とします。
得られたデータより、以下のように\(t_i\)と\(\chi_0^2\)を求めます。
\(T_i=T \times \displaystyle \frac{1}{7}=90 \times \displaystyle \frac{1}{7}=12.86\)
\(\chi_0^2=\displaystyle \sum_{i=1}^{7} \frac{(x_i-t_i)^2}{t_i}\)
\(=\displaystyle \frac{(22-12.86)^2}{12.86}+\frac{(12-12.86)^2}{12.86}+\frac{(13-12.86)^2}{12.86}\)
\(+\displaystyle \frac{(6-12.86)^2}{12.86}+\frac{(8-12.86)^2}{12.86}+\frac{(12-12.86)^2}{12.86}\)
\(+\displaystyle \frac{(17-12.86)^2}{12.86}=13.441\)
\(\phi~=~n-1~=~7-1~=6\)
手順5. 判定する。
\(\chi_0^2=13.441 \ge \chi^2(6,0.05)=12.59\)で検定統計量\(\chi_0\)は棄却域に入るので有意です。
よって帰無仮説\(H_0\)を棄却し、A町では曜日によって交通事故の発生する確率が異なると判断できます。
手順6. 有意なので基準化残差\(e_i\)を計算する。
$$e_1=\displaystyle \frac{x_1-t_1}{\sqrt{t_1}}=\frac{22-12.86}{\sqrt{12.86}}=2.549$$
$$e_2=\displaystyle \frac{x_2-t_2}{\sqrt{t_2}}=\frac{12-12.86}{\sqrt{12.86}}=-0.240$$
$$e_3=\displaystyle \frac{x_3-t_3}{\sqrt{t_3}}=\frac{13-12.86}{\sqrt{12.86}}=0.039$$
$$e_4=\displaystyle \frac{x_4-t_4}{\sqrt{t_4}}=\frac{6-12.86}{\sqrt{12.86}}=-1.913$$
$$e_5=\displaystyle \frac{x_5-t_5}{\sqrt{t_5}}=\frac{8-12.86}{\sqrt{12.86}}=-1.355$$
$$e_6=\displaystyle \frac{x_6-t_6}{\sqrt{t_6}}=\frac{12-12.86}{\sqrt{12.86}}=-0.240$$
$$e_7=\displaystyle \frac{x_7-t_7}{\sqrt{t_7}}=\frac{17-12.86}{\sqrt{12.86}}=1.154$$
日曜日の\(e_i\)の絶対値が大きいことが分かり、日曜日が他の曜日に比べて交通事故が多いと推測できます。
4. おわりに
今回は、適合度の検定について解説しました。
本記事で取り上げた事例は、各曜日で発生確率が等しい一様分布の場合でしたが、不適合品数(不良品数)であれば二項分布、不適合数(欠点数)であればポアソン分布に従っているかを検定できます。
検定の目的に合わせて適合度を調べる分布を決めてから、適合度の検定を行いましょう。