データ分析で見つかる「おかしな値」どうする?異常値・外れ値の考え方【入門】
データ分析で「あれ?」と思ったこと、ありませんか?
データ分析を進めていると、「あれ、この数字だけ他のと全然違うぞ?」とか、「グラフにすると、飛び抜けて高い(あるいは低い)点があるな」と感じることがあります。こうした、データの中で他から大きくかけ離れている値のことを、「異常値(いちじょうち)」や「外れ値(はずれち)」と呼びます。
これらの「おかしな値」は、一見すると分析の邪魔になるように思えるかもしれません。しかし、異常値・外れ値をどう扱うかは、データ分析において非常に重要なステップなのです。今回は、この異常値・外れ値について、なぜ重要なのか、どうやって見つけるのか、そしてどう考えれば良いのかを、入門者向けに分かりやすく解説します。
異常値・外れ値とは具体的にどんなもの?
異常値や外れ値に明確な定義は一つではありませんが、簡単に言うと「他の多くのデータと比べて、際立って性質が異なるデータ点」のことです。
例えば、あるクラスの生徒のテストの点数を分析しているとします。ほとんどの生徒が60点から80点の間にいる中で、一人だけ10点や100点といった極端な点数を取っている場合、その10点や100点が異常値・外れ値にあたる可能性があります。
また、店舗の1日の売上データを分析していて、普段は5万円から10万円の売上なのに、特定の日だけ100万円の売上になっている場合、その100万円も外れ値として考えられます。
なぜ異常値・外れ値を無視してはいけないのか?
なぜ、こうした「おかしな値」に注目する必要があるのでしょうか?それにはいくつかの理由があります。
-
分析結果を歪めてしまう可能性があるから: 例えば、先ほどのテストの点数の例で、平均点を計算してみましょう。生徒10人の点数が (60, 65, 70, 72, 75, 78, 80, 82, 85, 100) だったとします。外れ値の100点を含めると平均点は76.7点になります。もし100点が間違いで本当は70点だった場合、平均は74.2点になります。このように、一つの大きな外れ値があるだけで、平均点などの代表的な統計値が大きく変わってしまい、データ全体の傾向を誤って捉える可能性があります。
-
重要なビジネス上の示唆を含んでいる可能性があるから: 店舗の売上例で、100万円の売上が外れ値だとします。これが単なる入力ミスでなければ、なぜその日だけ売上が跳ね上がったのかを調べることは、ビジネスにとって非常に重要です。
- 特別なイベントがあった?
- 効果的な販促活動を行った?
- 人気商品が大量に売れた?
- システム上の問題で二重計上された? こうした原因を特定することで、成功要因を再現したり、問題点を改善したりするヒントが得られるかもしれません。つまり、異常値はビジネスチャンスやリスクのサインである可能性もあるのです。
-
データの品質問題を教えてくれる可能性があるから: 異常値は、データが正しく入力・収集されなかったこと(例えば、入力ミスや測定機器の故障など)を示している場合もあります。異常値を見つけて原因を調査することは、データの品質を改善するために不可欠です。
異常値を見つける簡単な方法(Excelでもできること)
データ分析の入門段階であれば、特別なツールを使わなくても異常値の可能性に気づくことができます。
-
データを並べ替える: Excelなどでデータを昇順(小さい順)または降順(大きい順)に並べ替えてみましょう。リストの両端にある値が、他の値から大きく離れていないかを目で確認します。極端に小さい値や大きい値があれば、それが異常値かもしれません。
-
グラフを作成する: データをグラフにして視覚的に確認する方法も有効です。例えば、棒グラフ、折れ線グラフ、散布図などを使います。
- 棒グラフや折れ線グラフ: 時系列データ(日ごとの売上など)であれば、折れ線グラフにすると、特定の日だけグラフが急に跳ね上がったり落ち込んだりしている点が見つけやすいです。
- 散布図: 2つの数値データの関係を見る場合、散布図を描いてみましょう。他の多くの点が集まっているところから、ポツンと離れた場所にある点があれば、それが外れ値の可能性があります。
これらの方法は、異常値を厳密に定義して検出する統計的な手法ではありませんが、「おかしいな?」と気づくための最初のステップとしては非常に有効です。
異常値が見つかったらどうすれば良い?
「おかしな値」を見つけたら、すぐにその値を除外したりせず、まずはその原因を調査することが最も重要です。
-
その値は本当に異常か確認する: まずは、その値が本当に「おかしな」値なのか、データ入力ミスなどの明らかな間違いではないかを確認します。元のデータソースを確認したり、詳しい人に聞いたりしてみましょう。入力ミスであれば、正しい値に修正します。
-
異常値の原因を考える: 入力ミスではない場合、なぜその値が異常になったのか原因を考えます。
- 特別な出来事(セール、競合店の閉鎖など)があったか?
- 計測方法が変わったか?
- 一時的なシステムエラーか?
- 全く新しい傾向の始まりか? 考えられるあらゆる可能性を検討することが大切です。
-
原因に応じて対処方法を決める: 原因が判明したら、その異常値をどう扱うかを決めます。
- 明らかな間違いの場合: 正しい値に修正するか、修正できなければデータから除外します。
- 特別な、しかし正当な理由がある場合: そのままデータに含めて分析します。ただし、その特殊な状況を考慮して分析結果を解釈する必要があります。例えば、セールで売上が上がった日は、通常の日とは分けて分析するなどの工夫が考えられます。
- 原因不明、かつ分析結果に大きな影響を与える場合: 分析の目的によっては、その値を除外することも検討します。ただし、異常値を除外したことは必ず記録しておき、報告する際にもその旨を明記するようにしましょう。
- 原因不明でも、その異常値自体が重要である場合: その異常値が発生した背景や状況をさらに深掘りして調査し、ビジネス上の示唆を探ります。
異常値・外れ値の扱い方には、唯一絶対の正解があるわけではありません。分析の目的やデータの性質によって、最も適切な方法を選択する必要があります。重要なのは、「おかしな値があるな」と気づき、それを無視せず、原因を考えてから慎重に対処することです。
まとめ:異常値・外れ値はビジネスチャンスやリスクのサイン
データ分析で「異常値」や「外れ値」を見つけることは、単にデータのエラーを見つけるだけでなく、ビジネスにおける隠れたチャンスやリスクを発見するきっかけにもなり得ます。
未経験者の段階では、まず「異常値・外れ値が存在する」ということを知り、簡単な方法でそれを見つけられるようになることが大切です。そして、「なぜその値がおかしいのか?」と疑問を持ち、原因を考える習慣をつけましょう。このステップを踏むことで、より正確なデータ分析ができるようになり、ビジネスに役立つ深い洞察を得られる可能性が高まります。
データ分析は、ただ数字を計算するだけでなく、数字の背後にある「なぜ?」を考える思考プロセスです。異常値・外れ値への関心は、その大切な思考力を養う良い機会となるでしょう。