平均だけじゃダメ? データ分析でデータの「散らばり」を理解する【入門】
はじめに:平均値だけでは見えないデータの姿
データ分析を始めると、「平均値」という言葉によく触れる機会があるかと思います。確かに平均値はデータを代表する分かりやすい指標(代表値)の一つですが、実はそれだけではデータの全体像を捉えきれないことがよくあります。
例えば、AクラスとBクラスの学生の数学のテストの平均点がどちらも70点だったとします。平均点が同じなので、両クラスの学力レベルは同じだと考えてしまいがちです。しかし、Aクラスは全員が65点から75点の間に集中していたのに対し、Bクラスは0点の学生もいれば100点の学生もいた、という状況もあり得ます。
この場合、平均点は同じでも、クラスごとの点数の「散らばり」方は全く異なります。Aクラスは比較的均一な学力層、Bクラスは学力の差が大きいクラス、というように、散らばりを見ることでデータから読み取れる情報が増えるのです。
この記事では、データ分析においてなぜ「散らばり」の理解が重要なのか、そしてどのようにしてデータの散らばりを見るのか、入門レベルで分かりやすく解説します。
データ分析で「散らばり」が重要な理由
データの散らばり方を理解することは、さまざまなビジネスシーンで役立ちます。
- リスクの評価: 商品の売上データの平均値が高くても、日によって売上が大きく変動する場合(散らばりが大きい)、在庫管理や人員配置において予測が難しくなり、リスクが高まります。散らばりを把握することで、どの程度変動しうるかを予測し、対策を立てやすくなります。
- 品質の均一性: 製造業などで製品の品質を管理する場合、製品の特定の計測値の平均値だけでなく、その値がどれくらいばらついているか(散らばり)が重要です。散らばりが小さいほど、品質が安定していると言えます。
- マーケティング施策の評価: 特定の広告を打った後の顧客反応データを見る際に、平均的な反応だけでなく、反応のばらつきを見ることで、その広告が特定の層に強く響いたのか、それとも全体に幅広く影響したのかなどが分かります。
このように、平均値だけでは分からない、データのばらつき具合や分布の広がりを理解することが、より深く、より正確なデータ分析につながります。
データの「散らばり」を表す基本的な指標
データの散らばりを数値として捉えるために、いくつか代表的な指標があります。ここでは、未経験者の方にもイメージしやすい基本的な指標を3つご紹介します。
1. 範囲 (Range)
最もシンプルで分かりやすい散らばりの指標です。 データの最大値から最小値を引いた差で求められます。
- 計算方法: 範囲 = 最大値 - 最小値
例えば、テストの点数が { 50, 60, 70, 80, 90 } というデータがあった場合、最大値は90点、最小値は50点です。 範囲は 90 - 50 = 40点 となります。
別のデータで { 0, 40, 70, 100 } というデータがあった場合、最大値は100点、最小値は0点です。 範囲は 100 - 0 = 100点 となり、最初のデータよりも散らばりが大きいことが分かります。
範囲は簡単に計算できますが、データの中央部分の散らばりについては何も教えてくれません。外れ値(極端に大きい値や小さい値)の影響を受けやすいという特徴があります。
2. 分散 (Variance)
分散は、データが平均値からどれだけ離れて散らばっているかを示す代表的な指標です。各データと平均値との差を計算し、その差を二乗したものの平均として求められます。
- 計算方法:
- データの平均値を計算します。
- 各データから平均値を引きます(これを「偏差」と呼びます)。
- それぞれの偏差を二乗します。
- 二乗した偏差の合計を、データの個数で割ります(厳密には、母集団か標本かによって分母が異なりますが、ここでは基本的な考え方として捉えてください)。
例:データ { 60, 70, 80 } の分散を計算してみましょう。 1. 平均値: (60 + 70 + 80) / 3 = 70 2. 偏差: (60-70)=-10, (70-70)=0, (80-70)=10 3. 偏差の二乗: (-10)^2=100, 0^2=0, 10^2=100 4. 分散: (100 + 0 + 100) / 3 = 200 / 3 ≒ 66.7
分散は、平均値からの離れ具合が大きいほど値が大きくなります。ただし、計算の過程で偏差を二乗しているため、単位が元のデータと異なります。例えば、テストの点数(点)の分散は(点)の二乗、というように解釈が少し難しい場合があります。
Excelでは VAR.S()
関数などを使って簡単に計算できます。
3. 標準偏差 (Standard Deviation)
標準偏差は、分散の平方根(ルート)を取った値です。分散と同様にデータが平均値からどれだけ散らばっているかを示しますが、元のデータと同じ単位になるため、分散よりも直感的にデータの散らばり具合を理解しやすい指標です。
- 計算方法: 標準偏差 = √分散
上記のデータ { 60, 70, 80 } の場合、分散は約66.7でした。 標準偏差は √66.7 ≒ 8.17 となります。
標準偏差は、値が大きいほど平均値からの散らばりが大きい、つまりデータにばらつきがあることを示します。逆に、値が小さいほどデータは平均値の周りに集まっており、ばらつきが小さいことを示します。
ビジネスの現場では、分散よりも標準偏差が使われることが多いです。平均値と標準偏差をセットで確認することで、データの中心的な傾向と、そのばらつきの両方を把握できます。
Excelでは STDEV.S()
関数などを使って簡単に計算できます。
Excelで散らばりを簡単に見てみよう
未経験者の方がデータの散らばりを手軽に確認するには、Excelを使うのが便利です。
- 範囲の確認: データが入った列の最大値と最小値を
MAX()
関数とMIN()
関数でそれぞれ求め、その差を計算します。 - 標準偏差の計算: データが入った列を選択し、
STDEV.S()
関数を使います。例えば、データがA1セルからA10セルまでに入っている場合、=STDEV.S(A1:A10)
と入力すれば標準偏差が計算されます。 - グラフで視覚化: ヒストグラム(度数分布図)や箱ひげ図といったグラフを使うと、データの散らばりや分布の形を視覚的に捉えることができます。これらのグラフ作成機能は、Excelにも搭載されています。
このように、難しい計算や専門的なツールを使わなくても、身近なExcelを使ってデータの散らばりを確認する第一歩を踏み出すことができます。
まとめ:散らばりを理解することがデータ分析の精度を高める
データ分析の基礎として、平均値だけでなく「データの散らばり」を理解することがいかに重要か、そしてそのための基本的な指標(範囲、分散、標準偏差)について解説しました。
平均値がデータの「中心」を示す指標であるなら、散らばりはデータの「広がり」を示す指標と言えます。この二つを合わせて見ることで、データが持つ特性をより深く理解し、より適切な判断や意思決定につなげることが可能になります。
まずは身近なデータ(例えば、自分の家計簿や簡単なアンケート結果など)を使って、Excelで範囲や標準偏差を計算してみることから始めてみてください。データの新たな一面が見えてくるはずです。
次にデータを見る際には、平均値だけでなく、「このデータはどれくらいばらついているのかな?」という視点を持ってみましょう。それが、データ分析のスキルアップにつながる大切な一歩となります。