以前の記事で、単回帰分析について解説しました。
単回帰分析とは、要因系の変数\(x\)と結果系の変数\(y\)に対して直線を当てはめて、一次の回帰式\(y=b_0+b_1x\)で\(x\)と\(y\)の関係を表す手法でした。
算出した回帰式は、あくまで母集団の一部であるサンプルから算出していますが、母集団を考えたときに回帰に意味があるかどうかを統計的に意味があるかどうかを知りたいところです。
今回は、母集団の回帰係数である母回帰係数に関する検定について解説します。
1. 回帰係数と残差平方和の性質
母回帰係数の検定を行う前に、サンプルから求めた回帰係数\(b_1\)と残差平方和\(S_e\)の性質を見ておきます。
なお、残差平方和\(S_e\)とは、実測値と回帰式から求めた予測値の差である残差を2乗して、すべて足し合わせた値でした。(詳細はこちら)
また、各プロットの誤差項\(\varepsilon_i(i=1,2,\cdots,n)\)は互いに独立で平均0、分散\(\sigma^2\)の正規分布\(N(0,\sigma^2)\)に従うと仮定します。
このとき、以下性質があります。
(1) \(S_e\)、全データの\(y\)の平均\(\bar{y}\)、\(b_1\)はそれぞれ統計的に独立である。
(2) \(b_1\)は平均\(\beta_1\)、分散\(\sigma^2/S_{xx}\)の正規分布\(N(\beta_1,\sigma^2/S_{xx})\)
ただし、\(S_{xx}\)は\(x\)の偏差平方和とする。
(3) \(S_e/\sigma^2\)は自由度\(\phi_e=n-2\)の\(\chi^2\)分布に従う。
性質(3)から、\(\sigma^2\)の推定量\(\hat{\sigma}^2\)として、
\(\hat{\sigma}^2=V_e=\displaystyle \frac{S_e}{n-2}\)
と言えます。
2. 母回帰係数の検定
母回帰係数の検定は、①分散分析による検定と②\(t\)検定による検定の2つの方法でできるので、それぞれの方法を見ていきましょう。
2-1. 分散分析による母回帰係数の検定
1.で確認した性質を使って、帰無仮説\(H_0:\beta_1=0\)、対立仮説\(H_1:\beta_1 \neq 0\)の検定を行うため、分散分析で分散分析表を作ります。
要因 | 平方和 \(S\) | 自由度 \(\phi\) | 平均平方 \(V\) | 分散比 \(F_0\) |
回帰 \(R\) | \(S_R=S_{xy}^2/S_{xx}\) | \(\phi_R=1\) | \(V_R=S_R/1\) | \(F_0=V_R/V_e\) |
残差 \(e\) | \(S_e=S_{yy}-S_R\) | \(\phi_e=n-2\) | \(V_e=S_e/(n-2)\) | |
\(T\) | \(S_{yy}\) | \(n-1\) |
\(F\)値が自由度\((\phi_R,\phi_e)\)の上側5%点\(F(1,\phi_e;0.05)\)を上回っていれば5%有意、さらに上側1%点\(F(1,\phi_e;0.01)\)を上回っていれば1%有意(高度に有意)と判断します。
\(F\)値の右上に5%有意であれば「*」を、1%有意であれば「**」を付けるのが一般的です。
相関分析で使ったデータで実際に分散分析を行ってみます。
それぞれの偏差平方和などはすでに計算していますので、結果のみ再掲します。
\(S_{xx}=1.502,~ S_{yy}=11.824,~ S_{xy}=3.8024,~n=15\)
これより、
\(S_R=\displaystyle \frac{3.8024^2}{1.502}=9.626\)
\(S_e=11.824-9.626=2.198\)
が求められるので、分散分析表は以下のように書けます。
要因 | 平方和 \(S\) | 自由度 \(\phi\) | 平均平方 \(V\) | 分散比 \(F_0\) |
回帰\(R\) | 9.626 | 1 | 9.626 | 56.94** |
残差\(e\) | 2.198 | 13 | 0.169 | |
\(T\) | 11.824 | 14 |
\(F(1,13;0.05)=4.67, F(1,13;0.01)=9.07\)なので1%有意であり、帰無仮説は有意水準1%で棄却されます。
よって、回帰による変動は有意であると判断できます。
2-2. \(t\)検定による母回帰係数の検定
1項の性質(2)で述べた通り、母回帰係数\(\beta_1\)の推定値である\(b_1\)は、正規分布\(N(\beta_1,\sigma^2/S_{xx})\)に従います。
\(b_1\)を標準化すると、
\(\displaystyle \frac{b_1-\beta_1}{\sqrt{\sigma^2/S_{xx}}} \sim N(0,1)\)
となります。
ただし、\(\sigma^2\)は未知ですから、その推定値である\(V_e\)を代入すると、統計量は正規分布ではなく\(t\)分布に従い、
\(\displaystyle \frac{b_1-\beta_1}{\sqrt{V_e/S_{xx}}} \sim t(n-2)\)
となります。
なお、\(t(n-2)\)は自由度\(n-2\)の\(t\)分布を意味します。
帰無仮説\(H_0:\beta_1=0\)の下では検定統計量\(t_0\)は、
\(t_0=\displaystyle \frac{b_1-0}{\sqrt{V_e/S_{xx}}}=\frac{b_1}{\sqrt{V_e/S_{xx}}}\)
となります。
あとは、\(t_0\)が設定した有意水準\(\alpha\)における棄却域に入るか否かで、帰無仮説\(H_0\)を棄却できるかどうかを判断します。
では、相関分析で使ったデータで\(t\)検定を行ってみましょう。
検定に必要な統計量は2-1項で求めた値を使います。
\(V_e=0.169, ~S_{xx}=1.502, ~S_{xy}=3.8024,~n=15\)
また、母回帰係数\(\beta_1\)の推定値\(b_1\)は
\(b_1=\displaystyle \frac{S_{xy}}{S_{xx}}\)
でしたので、
\(b_1=\displaystyle \frac{3.8024}{1.502}=2.532\)
です。
したがって、検定統計量\(t_0\)は、
\(t_0=\displaystyle \frac{b_1}{\sqrt{V_e/S_{xx}}}=\frac{2.532}{\sqrt{0.169/1.502}}=7.548\)
となります。
棄却域は、\(|t_0|\ge t(13,0.05)=2.16\)より、検定統計量\(t_0\)は棄却域に入るため、帰無仮説\(H_0:\beta_1=0\)は有意水準5%で棄却されます。
よって、回帰による変動は有意と判断できます。
検定結果は2-1項の分散分析と同じであり、分散分析で求めた分散比\(F_0\)と\(t\)検定で求めた検定統計量\(t_0\)には、以下の関係が成り立ちます。
\(F_0=t_0^2\)
3. おわりに
今回は、母回帰係数に関する検定について解説しました。
母回帰係数の推定も可能ですが、実用上は母回帰係数が0であるかどうかの検定を理解しておけば十分です。