データ分析で使う「相関」って何?二つの関係を見る方法【入門】
はじめに:データ分析で「関係性」を知る大切さ
データ分析にこれから挑戦される皆さん、こんにちは。
データ分析を行う上で、複数のデータを見比べることはよくありますよね。例えば、「広告費を増やしたら売上はどう変わるだろうか?」「気温が高くなると、ある商品の売れ行きはどうなるだろうか?」といった疑問を持つことがあるかもしれません。
このように、二つのデータが「一緒に動くかどうか」「どのような関係があるか」を知ることは、ビジネスの意思決定において非常に役立ちます。その「関係性」を調べるための基本的な考え方が「相関」です。
今回は、データ分析で使われる「相関」とは何か、そしてどのように二つのデータ間の関係を見るのかを、未経験者の方にも分かりやすく解説していきます。
「相関」とは何か?身近な例で理解する
「相関(そうかん)」とは、二つのデータの間に見られる、一緒に増えたり減ったりする傾向のことを指します。
例えば、私たちの身近な生活の中にも相関関係は見られます。
- 気温とアイスクリームの売上: 気温が高くなるにつれて、アイスクリームの売上が増える傾向があります。これは「一緒に増える関係」です。
- 学習時間とテストの点数: 一般的に、学習時間を増やすとテストの点数が高くなる傾向があります。これも「一緒に増える関係」と言えます。
- 商品の価格と販売数: 価格を上げると、販売数が減る傾向があります。これは「一方が増えると、もう一方が減る関係」です。
データ分析では、このような二つのデータの間の「一緒に動く傾向」があるかどうか、そしてその傾向がどのくらい強いのかを調べます。
相関の種類:正の相関、負の相関、相関なし
相関には、主に以下の3つの種類があります。
1. 正の相関(せいのそうかん)
一方が増えると、もう一方も増える傾向にある関係です。グラフに点を打っていくと、右肩上がりの直線に近くなります。
- 例: 広告費が増えるほど、商品の売上も増える。社員の経験年数が長いほど、給与が高い。
2. 負の相関(ふのそうかん)
一方が増えると、もう一方は減る傾向にある関係です。グラフに点を打っていくと、右肩下がりの直線に近くなります。
- 例: 商品の価格が高くなるほど、販売数が減る。冷房の設定温度を低くするほど、電気代が高くなる。
3. 相関なし
二つのデータの間に、一緒に増えたり減ったりするはっきりとした傾向が見られない関係です。グラフに点を打っても、特定の方向へのまとまりが見られず、バラバラになります。
- 例: ある商品の売上と、全く関係のない別の商品の売上。身長とテストの点数(一般的には関係が見られない)。
相関の強さ:相関係数って何?
相関がある場合、その関係性の強さもデータ分析では重要になります。この強さを示す数値として、「相関係数(そうかんけいすう)」というものがよく使われます。
相関係数は、-1から+1までの間の値をとります。
- +1に近いほど、強い正の相関があると言えます。(完全に比例している状態が+1)
- -1に近いほど、強い負の相関があると言えます。(完全に逆比例している状態が-1)
- 0に近いほど、相関は弱い、または相関がないと言えます。
| 相関係数の値 | 関係性の強さ | 傾向 | | :------------- | :--------------- | :--------------------------------------- | | +0.7~+1 | 強い正の相関 | 一方が増えると他方も強く増える傾向 | | +0.4~+0.7 | 中程度の正の相関 | 一方が増えると他方も増える傾向 | | -0.4~+0.4 | ほとんど相関なし | はっきりとした関係が見られない | | -0.7~-0.4 | 中程度の負の相関 | 一方が増えると他方が減る傾向 | | -1~-0.7 | 強い負の相関 | 一方が増えると他方が強く減る傾向 |
※この基準はあくまで一般的な目安です。
計算方法は少し複雑になりますが、Excelなどのツールを使えば簡単に出すことができます。計算式自体を覚えるよりも、「-1から+1までの値で、1や-1に近いほど強い関係、0に近いほど関係なし」という概念を理解することが、入門としては十分です。
データ分析で相関を見るには?(Excelを例に)
二つのデータの相関を見るための最も簡単な方法は、データをグラフにすることです。特に、「散布図(さんぷず)」というグラフが相関関係を見るのに適しています。
散布図を使ってみる
Excelを使って、縦軸と横軸にそれぞれのデータの値をプロット(点を打つ)してみてください。
- 分析したい二つのデータの列を選択します。
- Excelの「挿入」タブから「グラフ」グループを選び、「散布図」を選択します。
すると、それぞれのデータが交差する位置に点が打たれたグラフが表示されます。この点の集まりが、右肩上がりになっていれば正の相関、右肩下がりなら負の相関、バラバラなら相関なし、と視覚的に捉えることができます。点の集まりがギュッとまとまっているほど、相関が強い傾向があります。
相関係数を計算してみる
Excelには、相関係数を計算するための関数が用意されています。「CORREL(コレル)関数」です。
例えば、A列に入っているデータとB列に入っているデータの相関係数を求めたい場合、どこか空いているセルに =CORREL(A:A, B:B)
と入力すれば、相関係数が計算されて表示されます。
このように、Excelを使えば、専門知識がなくても簡単に相関関係を調べることができます。
相関分析の落とし穴:因果関係ではない!
データ分析で相関を見るときに、非常に重要な注意点があります。それは、「相関関係があるからといって、それが直接の原因と結果の関係(因果関係)であるとは限らない」ということです。
例: 「アイスクリームの売上」と「プールの利用者数」には、強い正の相関があるかもしれません。気温が高い日にどちらも増えるからです。しかし、「アイスクリームがたくさん売れるからプールの利用者数が増える」わけではありませんし、「プールの利用者数が増えるからアイスクリームがたくさん売れる」わけでもありません。どちらも「気温が高い」という別の要因によって増えていると考えられます。
このように、相関が見られても、それが直接の原因と結果なのか、それとも別の要因が影響しているのかは、相関分析だけでは判断できません。ビジネスで施策を考える際には、この「相関 ≠ 因果」を常に意識することが大切です。
まとめ:相関を理解してデータ分析の一歩を進めよう
今回は、データ分析における「相関」の基本的な考え方について解説しました。
- 相関とは、二つのデータが一緒に増えたり減ったりする傾向のことです。
- 正の相関、負の相関、相関なしの3種類があります。
- 相関係数は、相関の強さを示す-1から+1までの値です。
- Excelの散布図やCORREL関数を使うことで、相関関係を調べることができます。
- 相関関係は、必ずしも因果関係ではありません。
相関を理解することで、データから「Aが増えるとBも増えるようだ」「Cが減るとDも減るようだ」といった関係性を見つけ出すことができるようになります。これは、次にどのような分析を進めるか、どのような施策が有効かを考える上で、非常に役立つ基礎的なスキルです。
まずは身近なデータや、職場で扱っている簡単なデータで、散布図を作ったり相関係数を計算してみたりすることから始めてみてはいかがでしょうか。
次のステップとしては、なぜ相関が見られるのか?という要因をさらに深掘りしていくことなどが考えられます。一つずつ、データ分析のスキルを身につけていきましょう。