データ分析でよく聞く「相関」と「因果関係」って違うの?間違えると危険な理由【入門】
はじめに:データ分析でよく聞く「相関」と「因果関係」
データ分析に触れると、「相関関係」という言葉をよく耳にすると思います。「〇〇と△△には相関がある」といった表現を聞いたことがある方も多いのではないでしょうか。
しかし、この「相関関係」は、データ分析の初心者の方が最も誤解しやすいポイントの一つです。特に、「相関関係があるからといって、それが原因と結果の関係(因果関係)を示すわけではない」という点は、データ分析の結果を正しく理解する上で非常に重要になります。
もし、この違いを理解しないままデータ分析の結果を解釈し、ビジネスの意思決定に使ってしまうと、間違った判断をしてしまう危険性があります。
この記事では、データ分析をはじめて学ぶ方向けに、「相関関係」と「因果関係」がどのように違うのか、そしてなぜその違いを知ることが大切なのかを、分かりやすい例を交えて解説します。
データ分析における「相関関係」とは?
まず、「相関関係(そうかんかんけい)」について簡単におさらいしましょう。
相関関係とは、「二つのデータの間に何らかの関係性があること」を示します。一方のデータが変わると、もう一方のデータも一緒に変わる傾向がある、ということです。
例えば、「気温が高くなるにつれて、アイスクリームの売上も増える」という関係性は、相関関係があると言えます。気温というデータとアイスクリームの売上というデータが、似たような動きをしているからです。
相関関係には、主に以下の2種類があります。
- 正の相関: 一方のデータが増えると、もう一方のデータも増える傾向にある関係。(例:気温とアイスクリーム売上)
- 負の相関: 一方のデータが増えると、もう一方のデータは減る傾向にある関係。(例:気温と鍋の売上)
相関関係の強さは、相関係数(そうかんけいすう)という0から±1の間の数値で表されることが一般的ですが、入門としては「二つのデータが一緒に動いている傾向があるかどうか」と理解しておけば十分です。
データ分析における「因果関係」とは?
次に、「因果関係(いんがきかんけい)」について説明します。
因果関係とは、「一方の出来事が原因となって、もう一方の出来事が結果として引き起こされる関係性」を示します。
例えば、「雨が降った(原因)から、地面が濡れた(結果)」という関係性は、明確な因果関係があります。雨が降らなければ、地面が濡れることはないからです。
ビジネスの例で言えば、「特定の広告キャンペーンを実施した(原因)から、商品の売上が増加した(結果)」という状況が因果関係にあたります。もちろん、広告キャンペーンが本当に売上増加の「原因」であるためには、他の要因が影響していないかをしっかりと検証する必要があります。
相関関係があっても、なぜ因果関係があるとは限らないのか?
ここが、データ分析初心者の方が最も注意すべきポイントです。
先ほどの例を思い出してください。「気温が高くなるにつれて、アイスクリームの売上も増える」という相関関係がありました。しかし、これは「アイスクリームが売れる」ということが原因で「気温が高くなる」のではありませんし、「気温が高くなる」こと自体が直接的な原因で「アイスクリームが売れる」わけでもありません。
実際には、「夏になった」という第三の要因が、「気温が高くなる」と「アイスクリームが売れる」という両方の現象を引き起こしていると考えられます。夏になれば気温が上がり、暑いからアイスクリームが売れるのです。
このように、二つのデータの間に相関関係があったとしても、それが必ずしも原因と結果の関係(因果関係)を示すとは限りません。相関関係は、あくまで「一緒に動いている傾向がある」という関係性を示しているにすぎないのです。
相関があっても因果関係がない、または原因と結果が逆であるケースは多々あります。
- 見かけの相関: 全く関係のない二つのデータが、偶然または第三の要因によって一緒に動いているように見えるケース。有名な例に「アイスクリームの売上が増えると、プールの事故件数も増える」というものがありますが、これは「夏である」という要因が両方に影響している見かけの相関です。
- 原因と結果が逆: 例:「成績が良い学生ほど、勉強時間が長い」という相関があったとしても、本当に「勉強時間が長い」ことだけが原因で「成績が良い」のでしょうか?もしかすると、成績が良い学生は「勉強の効率が良い」のかもしれませんし、元々「理解力が高い」のかもしれません。あるいは、「成績が良い(結果)」ことがモチベーションとなり「勉強時間が増えている(原因)」という可能性すら考えられます。
なぜこの違いを知ることが重要なのか?間違った判断の危険性
相関関係と因果関係の違いを理解することは、データ分析の結果から正しいビジネスアクションに繋げるために非常に重要です。
もし、相関関係しかないデータを因果関係があるかのように誤って解釈してしまうと、次のような問題が発生する可能性があります。
- 無駄な施策の実行: 「アイスクリームの売上を増やせば、プールの事故が減るはずだ!」と考えて、アイスクリームの販売促進に力を入れても、プールの事故は減りません。因果関係がないからです。
- 真の課題の見落とし: ある商品Aの売上と、特定のWeb広告の表示回数に相関があったとします。これを「広告を見れば売れる」と解釈し、広告費を増やしたとします。しかし、もし本当の原因が「競合商品が値上がりした」ことであったなら、広告費を増やしても期待する効果は得られないかもしれません。そして、競合商品の値上がりという真の原因に対する適切な対策(例:自社商品の値下げ、機能強化など)を怠ってしまう可能性があります。
相関関係は、データの中に「何か関係がありそうなもの」を見つけるための入り口としては非常に役立ちます。しかし、それだけで「原因と結果」と決めつけてしまうのは危険です。
まとめ:データ分析の結果にどう向き合うか
データ分析において、「相関関係」は二つのデータの間の「一緒に動く傾向」を示すものであり、「因果関係」は「原因と結果」の関係を示すものです。
相関関係が見つかったとしても、それが直ちに因果関係を意味するわけではありません。そこには、見かけの相関や、第三の要因が隠れている可能性があることを常に意識することが大切です。
データ分析の結果からビジネスのアクションを決める際には、単に相関があるからという理由だけで判断せず、「本当にこれが原因で、この結果が生まれているのだろうか?」と一歩立ち止まって考える習慣をつけましょう。
本当に因果関係があるかどうかを調べるためには、より高度な分析手法や、実験的な検証(例:あるグループには施策を行い、別のグループには行わないなど)が必要になる場合があります。未経験者のうちは、すべての因果関係を自分で特定することは難しいかもしれません。
しかし、少なくとも「相関≠因果」という知識を持っているだけで、データ分析の結果を鵜呑みにせず、より慎重に、多角的な視点から解釈できるようになります。これが、データに基づいた正しい意思決定を行うための第一歩となります。
まずは、身近なデータを見る際に、「これとこれは相関がありそうだけど、本当に原因と結果なのかな?」と考えてみることから始めてみてはいかがでしょうか。