2変数の関係を表すモデル式を求める~単回帰分析②~

前回、2つの変数xyに関して、yxで予測するための回帰式を求める回帰分析について解説しました。

2変数の関係を表すモデル式を求める~単回帰分析①~

ただし、データから求めた単回帰式を見ただけでは、単回帰式がどれだけ精度良くxyを説明できているかの適合度(予測精度)が分かりません。
そこで、今回は得られた単回帰式の評価方法および、単回帰分析における注意点を解説します。

この記事で分かること
  • 寄与率(決定係数)とは
  • 寄与率の求め方
  • 単回帰式分析における注意事項


1. 総平方和の分解

個々のデータyiとデータのyの平均値y¯の差(yiy¯)総変動、予測値y^iy¯の差(y^iy¯)回帰変動yiy^iの差(yiy^i)残差eiとすると、それぞれの関係は以下の図のように表せます。

すべてのデータについて考えると、総平方和Syy=i=1n(yiy¯)2は、回帰変動の平方和SRと残差平方和Seに分解できます。
Syy=i=1n(yiy¯)2=i=1n(y^iy¯)2+i=1n(yiy^i)2=SR+Se
ここで、回帰変動の平方和SRは以下のように変形できます。
SR=i=1n(y^iy¯)2=i=1n{y¯+b1(xix¯)y¯}2

=b12i=1n(xix¯)2=b12Sxx=b1SxySxxSxx=b1Sxy

2. 寄与率の算出

さて、総平方和を分解することにより、求めた回帰式の適合度(精度)の指標である寄与率(決定係数)R2を以下の式から求められます。

寄与率:R2=SRSyy=SyySeSyy=1SeSyy

R2は通常は0から1の範囲を取り、1に近いほど回帰式の適合度が高いことを意味します。
ただし、適合度があまりに低いと、寄与率がマイナスになることがあります。
これは、単にデータのy¯を用いただけの回帰式y=y¯より、求めた回帰式の適合度が悪いときに起こり得ます。

また、寄与率の代わりに自由度調整済み寄与率(自由度調整済み決定係数)R2を使う場合があります。
単回帰分析では、寄与率と自由度調整済み寄与率の間に差はあまりないので寄与率で適合度を見ればよいですが、説明変数が2つ以上の重回帰分析では、重回帰式に取り込む説明変数が多いほど寄与率は大きくなる傾向があるので、それを補正するために自由度調整済み寄与率がよく用いられます。

自由度調整済み寄与率:R2=1Se/ϕeSyy/ϕyy

ただし、
ϕyy=n1:総平方和の自由度
ϕe=n2:残差平方和の自由度

自由度調整済み寄与率の詳細は、重回帰分析の記事で改めて解説します。
求めた単回帰式の適合度の評価は、機械学習で得られるさまざまなモデルの適合度を評価するプロセスと全く同じです。
機械学習に携わる方はまずはシンプルな単回帰分析で、考え方を理解してください。

3. 単回帰分析を行う際の注意事項

単回帰分析は非常にシンプルで基本的な解析方法ですが、使い方を誤ると間違った判断に至る可能性があります。
そこで、単回帰分析で行いがちな過ちを2点紹介しますので、実務で誤った使い方をしないように気を付けてください。

3-1. 外挿は行わないこと

単回帰分析でやりがちな過ちは外挿です。
外挿とは、取得したデータを基にして、取得データの範囲外で予測値を求めることです。
単回帰式を得られると、単回帰式のxにどんな値を入れても予測値y^が得られるので、取得データを無視して予測値を求めがちです。

しかし、直線関係があるのはあくまで取得データの範囲内であって、その外側も直線関係が成り立つかは全く分かりません。傾向が大きく変わって、予測値と実測値に大きな乖離が生じることもあり得ます。

安易に外挿で予測するのではなく、見たい領域のデータを採取して直線性の有無を確認しましょう。

3-2. データのばらつきを考慮すること

製造業では、特性が規格に入るように製造条件を決めたいといったように、結果系から要因系を予測したい場面がよくあります。
単回帰式が求まれば、yに値を代入すればxの値が求まるので、規格の上下限をyに代入することでxの上下限を決められるのではと思いがちです。
xyの相関係数が1または-1であれば、完璧に一直線上にデータが並んでいることを意味しており、yと回帰直線との交点からxの上下限を求めても問題ありませんが、実際は回帰直線の周りにばらつきがあるので、そのばらつきを考慮してxの上下限を決める必要があります。

事例2で具体的な考え方を説明します。

【事例2】

条件xと特性yについて、以下のデータが得られました。
特性yの規格が2.25以上3.05以下の時、規格を満足するように条件xの管理幅を決めましょう。

No.条件x特性y
1563.72
2583.52
3603.10
4622.86
5632.80
6642.70
7662.58
8682.21

散布図を作成すると条件xと特性yには直線関係が見られ、単回帰式は以下のように求まります。

y=10.5080.122×x

相関係数r=0.988と直線に近い関係ですが、完全に直線には乗らず、データは回帰直線の周りでばらつきを持ちます。
データがばらつく範囲を95%予測区間で求めることが多いので、95%予測区間(母集団から100回データを取ったとき、95回が含まれる範囲)を求めて散布図にプロットしてみます。

なお、95%予測区間は以下のように求められます。

95%予測区間=(b0+b1x)±t(n2,0.05){1+1n+(xx¯)2Sxx}Ve

ただし、t(n2,0.05)t分布におけるt

Ve=SyySxy2Sxxn2

ここで、規格値と回帰直線との交点から条件xの管理値を決めるとどうなるでしょうか?
単回帰式のyに規格値を代入してxを求めると、61.2~67.8が規格を満足する範囲と求められますが、ばらつきを考えると下図の斜線部分が規格外れとなる恐れがあります。

したがって、特性yの規格外れ品が発生しないようにするためには、ばらつきを考慮して、つまり、特性yの規格値と予測区間との交点から条件xの範囲を決める必要があります。

特性yの規格値と予測区間の交点から条件xの範囲を求めると62.9~65.9となり、この範囲で条件xを設定すれば、ばらつきを考慮しても特性yの規格外れ品が生じないと推定できます。

このように、単回帰分析の結果を使って要因系の管理幅を決めたいときは、必ず回帰直線周りのばらつきを考慮して設定してください。

4. おわりに

今回は、単回帰式の適合度の評価方法と、単回帰分析を適用するにあたって注意すべき点を解説しました。

単回帰分析を行うと単回帰式が得られますが、単回帰式がデータによく適合しているかを評価し、適合度が高ければ単回帰式を使って精度の高い予測が可能となります。

また、単回帰式を使った予測するときは、取得したデータの範囲内でばらつきを考慮することが必要です。

単回帰分析で単回帰式は簡単に求まりますが、その活用方法には十分に注意してください。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です