前回、2つの変数

ただし、データから求めた単回帰式を見ただけでは、単回帰式がどれだけ精度良く
そこで、今回は得られた単回帰式の評価方法および、単回帰分析における注意点を解説します。
1. 総平方和の分解
個々のデータ

すべてのデータについて考えると、総平方和
ここで、回帰変動の平方和
2. 寄与率の算出
さて、総平方和を分解することにより、求めた回帰式の適合度(精度)の指標である寄与率(決定係数)
寄与率:
ただし、適合度があまりに低いと、寄与率がマイナスになることがあります。
これは、単にデータの
また、寄与率の代わりに自由度調整済み寄与率(自由度調整済み決定係数)
単回帰分析では、寄与率と自由度調整済み寄与率の間に差はあまりないので寄与率で適合度を見ればよいですが、説明変数が2つ以上の重回帰分析では、重回帰式に取り込む説明変数が多いほど寄与率は大きくなる傾向があるので、それを補正するために自由度調整済み寄与率がよく用いられます。
自由度調整済み寄与率:
ただし、
自由度調整済み寄与率の詳細は、重回帰分析の記事で改めて解説します。
求めた単回帰式の適合度の評価は、機械学習で得られるさまざまなモデルの適合度を評価するプロセスと全く同じです。
機械学習に携わる方はまずはシンプルな単回帰分析で、考え方を理解してください。
3. 単回帰分析を行う際の注意事項
単回帰分析は非常にシンプルで基本的な解析方法ですが、使い方を誤ると間違った判断に至る可能性があります。
そこで、単回帰分析で行いがちな過ちを2点紹介しますので、実務で誤った使い方をしないように気を付けてください。
3-1. 外挿は行わないこと
単回帰分析でやりがちな過ちは外挿です。
外挿とは、取得したデータを基にして、取得データの範囲外で予測値を求めることです。
単回帰式を得られると、単回帰式の

しかし、直線関係があるのはあくまで取得データの範囲内であって、その外側も直線関係が成り立つかは全く分かりません。傾向が大きく変わって、予測値と実測値に大きな乖離が生じることもあり得ます。

安易に外挿で予測するのではなく、見たい領域のデータを採取して直線性の有無を確認しましょう。
3-2. データのばらつきを考慮すること
製造業では、特性が規格に入るように製造条件を決めたいといったように、結果系から要因系を予測したい場面がよくあります。
単回帰式が求まれば、
事例2で具体的な考え方を説明します。
条件
特性
No. | 条件 | 特性 |
---|---|---|
1 | 56 | 3.72 |
2 | 58 | 3.52 |
3 | 60 | 3.10 |
4 | 62 | 2.86 |
5 | 63 | 2.80 |
6 | 64 | 2.70 |
7 | 66 | 2.58 |
8 | 68 | 2.21 |
散布図を作成すると条件
相関係数
データがばらつく範囲を95%予測区間で求めることが多いので、95%予測区間(母集団から100回データを取ったとき、95回が含まれる範囲)を求めて散布図にプロットしてみます。

なお、95%予測区間は以下のように求められます。
95%予測区間
ただし、
ここで、規格値と回帰直線との交点から条件
単回帰式の

したがって、特性

特性
このように、単回帰分析の結果を使って要因系の管理幅を決めたいときは、必ず回帰直線周りのばらつきを考慮して設定してください。
4. おわりに
今回は、単回帰式の適合度の評価方法と、単回帰分析を適用するにあたって注意すべき点を解説しました。
単回帰分析を行うと単回帰式が得られますが、単回帰式がデータによく適合しているかを評価し、適合度が高ければ単回帰式を使って精度の高い予測が可能となります。
また、単回帰式を使った予測するときは、取得したデータの範囲内でばらつきを考慮することが必要です。
単回帰分析で単回帰式は簡単に求まりますが、その活用方法には十分に注意してください。