前の記事では、相関分析で必須となる相関係数の求め方を見てきました。
2変数の関係を定量化する方法~相関分析①~相関係数の値を見れば2変数間の相関の強さが分かりますが、相関係数の値だけを見て相関関係を判断すると、判断を誤る恐れがあります。
今回は相関分析を行う際に注意すべき点について解説します。
1. 外れ値の処置の必要性
散布図を作成すると、外れ値(異常値)が見つかることがあります。
外れ値をそのままにして相関係数を求めると、相関が小さいはずなのに相関が大きい結果になったり、相関が大きいはずなのに相関が小さい結果が得られることがあるので、何らかの処置が必要です。
以下に、外れ値が相関係数に影響を与える例を紹介します。
外れ値で相関が生じる例 | 外れ値で相関が弱まる例 | 外れ値で相関が強まる例 |
このように、外れ値が1個存在するだけで、相関係数が大きく変わることがあります。
外れ値が見つかった場合、単に外れ値を機械的に取り除くのではなく、なぜその外れ値が生じたのかをよく調べ、取り除くべきと判断できてから取り除いてください。
2. 層別の必要性
複数の異なったグループを同じ散布図でプロットすると、正確な相関関係の把握が難しくなる場合があります。
そのときは、層別してグループごとに散布図を作成し、相関係数を求めて判断するのがおすすめです。
もし、グループによって相関の傾向が異なるようであれば、新たな知見の発見や問題解決の糸口の発見などにつながる可能性があります。
以下に、層別の前後で相関係数が大きく変化する例を紹介します。
層別すると2つの正の相関を持つグループになる例 | 層別すると2つの無相関のグループになる例 | 層別すると正と負の相関を持つグループになる例 |
このように、層別することで無相関と思ったデータに相関関係があったり、逆に相関があると思ったら無相関だったりすることがあります。
解析するデータの素性をよく確認し、層別すべきであれば層別して相関関係を確認してください。
3. 疑似相関に注意
相関分析を行う目的の一つに、因果関係の有無を確認することが挙げられます。
因果関係をしっかり掴むには、実験計画法で計画的な実験を行ってデータを取って解析すべきですが、既存のデータから相関分析で因果関係を見たいこともあります。
要因と思われる変数を\(x\)、結果系の変数を\(y\)とし、\(x\)と\(y\)の相関係数を求めて、相関係数が高ければ\(x\)は\(y\)の要因であると判断するイメージです。
この考え方ですと判断を誤ることがあるのですが、その理由の一つが疑似相関の存在です。
疑似相関とは、2つの事象に因果関係がないのに、見えない要因によって因果関係があるかのように見えてしまうことです。
よく取り上げられる例が、アイスクリームの売上と水難事故の関係の例です。
アイスクリームの売上をx軸、水難事故の件数をy軸に取った散布図が以下です。
散布図を見ると、アイスクリームの売上と水難事故の件数には正の相関があり、相関係数は\(r=0.96\)と強い正の相関があります。
この結果をもとに、「水難事故件数を減らすためにアイスクリームの販売を自粛しよう」と結論を出すのはおかしいですね。
実は、見えない要因として、気温があるのです。
最高気温を要因系とし、水難事故件数とアイスクリームの売上を結果系として、それぞれ散布図を作成すると、どちらも強い正の相関があることが分かります。
アイスクリームの売上と水難事故の件数がともに最高気温と強い正の相関があり、その結果、お互いに因果関係がないにもかかわらず、アイスクリームの売上と水難事故の件数の間に強い相関が現れました。
この、アイスクリームの売上と水難事故の件数の関係が疑似相関です。
アイスクリームの売上と水難事故の件数の間に因果関係がないことは明白で、単なる笑い話で済みますが、ビジネスの世界で疑似相関を見抜くのは簡単ではありません。
相関関係が見つかったときに、因果関係も成り立つかどうかは、さまざまな分析を重ねて仮説を立て、その仮説が成立するかをしっかり検証してください。
4. 実践のためのアドバイス
前回の記事で、相関係数が大きいからと言って因果関係が成り立つとは限らない旨のお話をしましたが、それは今回説明した疑似相関の可能性があるからです。
因果関係の有無の見極めは意外と難しいので、相関分析だけで因果関係を議論するのではなく、ドメイン知識を駆使して因果関係の有無を判断しましょう。
5. おわりに
今回は、相関分析にあたって注意すべきことについて解説しました。
相関係数だけを見て判断すると、相関関係の判断を誤る恐れがあるので、必ず散布図を作成して外れ値の有無や層別の必要性などを吟味してください。
また、相関関係があることと因果関係があることはイコールではなく、疑似相関の可能性があるので、因果関係の判断は慎重に行いましょう。