2変数の関係を定量化する方法~相関分析①~

2つのデータの関係を確認するのに使われるグラフが「散布図」でした。

散布図を使ったデータ解析方法

散布図を見れば、2つの変数に関係があるかどうか、相関関係の有無を判断できます。
しかし、グラフの見た目で判断すると、人によって判断結果が異なることもあり得ます。

今回は相関関係の有無を定量的に判断できる、相関分析について解説します。

この記事で分かること
  • 相関分析とは何か
  • 相関係数とは何か
  • 相関係数の求め方


1. 相関分析とは

対になった2つのデータ(x,y)が与えられているとき、xyの関係を分析することを相関分析と言います。
相関分析を行うデータは、以下の2種類に分けられます。

1) xyの因果関係ははっきりしていないが、関連の強さに関心がある場合。

 例えば、勉強時間(x)とテストの点数(y)などです。

2) xが要因系でyが結果系のであることが明確な場合。

 例えば、気温(x)とアイスクリームの売上(y)などです。

2. 相関係数とは

さて、相関分析を行う第一歩は散布図を描くことですが、2つのデータの関係の強さを数値で表す指標が相関係数rです。
相関係数r1r1の範囲を取り、rは正の相関が強いほど1に、負の相関が強いほど-1に近づき、相関関係がないと0に近くなる性質があります。

散布図と相関係数の例を以下に示します。

散布図
相関係数rr=0.98r=0.71r=0.10r=0.76r=0.99

両者の関係が直線に近づくほど、相関係数の絶対値は1に近づくことが分かります。
相関係数を求めれば、相関の強さを散布図の見た目だけでなく、数値で議論することが可能です。

3. 相関係数の求め方

相関係数は、Excelで簡単に計算できますが、どのような計算をしているのかを知りたい方のために、手計算の方法も示します。

【事例1】

以下のデータは、ある製品の長さと重量を測定したデータです。

No.長さ(cm)重量(g)
120.9653.5
221.2853.6
321.0953.6
421.4854.6
522.055.8
621.6455.2
721.5955.2
821.5254.8
921.7554.8
1021.9455.8
1121.3153.4
1221.5254.1
1321.5854.5
1422.1456.4
1521.3254.9

長さ(x)と重量(y)について散布図を作成すると、正の相関関係が見られます。

このデータについて、相関係数を求めてみましょう。

3-1. Excelを用いた相関係数の求め方

Microsoft Excelを使えば、簡単に相関係数を求められます。
Excelには「CORREL」という相関係数を計算してくれる関数があるので、この関数を用いると相関係数r=0.90が求まります。

初めて使うときはアドインの操作が必要ですが、データ分析ツールにも「相関」のメニューがあり、こちらでも相関係数を求められます。
複数の変数同士の相関係数をまとめて見たい場合は、データ分析ツールを使うのが簡単です。

3-2. 手計算による相関係数の求め方

相関係数の導出過程を詳しく見ていきます。

相関係数rは以下の式で求めます。

相関係数:r=SxySxxSyy=xy(x)(y)

各項は、以下のように計算します。

xの偏差平方和:Sxx=i=1n(xix¯)2=i=1nxi2(i=1nxi)2n

          =(x2)(x)2

yの偏差平方和:Syy=i=1n(yiy¯)2=i=1nyi2(i=1nyi)2n

          =(y2)(y)2

xyの偏差積和:Sxy=i=1n(xix¯)(yiy¯)

          =i=1nxiyi(i=1nxi)(i=1nyi)n

          =(xy)(x)(y)

以上の式に事例のデータを代入すると、以下のようになります。

Sxx=(20.962+21.282++21.322)(20.96+21.28++21.32)215
  =6961.94(323.12)215=1.502

Syy=(53.52+53.62++54.92)(53.5+53.6++54.9)215
  =44860.36(820.2)215=11.824

Sxy=(20.96×53.5+21.28×53.6++21.32×54.9)
   
   (20.96++21.32)(53.5++54.9)15
  
  =17672.00323.12×820.215=3.8024

したがって、相関係数rは以下のようになります。
r=SxySxxSyy=3.80241.502×11.824=0.902
得られた相関係数rの値は1に近いことから、長さ(x)と重量(y)の間には、強い正の相関あると言えます。

4. 実践のためのアドバイス

相関分析では、2つの変数の関係性を相関係数で定量化できます。
特に、要因系と結果系の散布図を作成し、相関係数が大きいと因果関係があると判断しがちですが、それは必ずしも正しいとは言えません。
因果関係があると相関係数は大きくなりますが、その逆は真とは限らないことに留意しましょう。

5. おわりに

今回は、相関分析について解説しました。

相関の強さは相関係数で表せ、その算出方法を理解いただけたと思います。
相関の強さを定量的に評価したいときは、相関係数を求めてましょう。
なお、相関分析を行うにあたっていくつか注意事項があるのですが、それは次の記事でまとめて解説します。

2変数の関係を定量化する方法~相関分析②~

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です