平均だけじゃない!データ分析で使う「代表値」の基本【入門】
データ分析の第一歩:「代表値」を知る
データを見ると、つい最初に「平均」を見てしまう、という方は多いのではないでしょうか。例えば、「平均売上」や「平均顧客単価」など、ビジネスの現場でも「平均」はよく使われますね。
しかし、データ分析において「平均」だけを見ていると、データの全体像や本当の特徴を見誤ってしまうことがあります。なぜなら、平均値はデータの一部に大きく影響されてしまうことがあるからです。
では、どのようにデータ全体の特徴を捉えれば良いのでしょうか。そこで重要になるのが、「代表値」という考え方です。代表値とは、たくさんのデータの中から、そのデータ集団全体を最もよく表している一つの値のことです。これを知ることで、データの傾向をより正確に理解できるようになります。
この記事では、データ分析の基礎として非常に役立つ3つの代表値、「平均値」「中央値」「最頻値」について、未経験者の方にも分かりやすく解説します。それぞれの意味や、どのような状況で使うのが適切かを知り、データ分析の第一歩を踏み出しましょう。
代表値とは?なぜデータ分析で使うの?
改めて、「代表値」とは、データ全体の傾向や特徴を一つの数値でギュッと要約したものです。例えば、クラス全員のテストの点数が100人分あったとして、そのテストのレベルを誰かに伝えるとき、100人分の点数を全て伝えるのは大変です。そこで、「クラスの平均点は〇点でした」のように、代表値を使うと、効率的にデータの特徴を伝えることができます。
データ分析では、このように大量のデータから意味を読み取るために、代表値のような要約統計量が不可欠になります。特に、データが持つ「中心」や「一番多いパターン」を知ることは、次の分析や意思決定のための重要な手がかりとなります。
代表値にはいくつかの種類があり、それぞれ得意なこと、苦手なことがあります。代表的なものとして、以下の3つがあります。
- 平均値 (Mean)
- 中央値 (Median)
- 最頻値 (Mode)
これら3つの代表値について、順番に見ていきましょう。
1. 平均値 (Mean)
「平均値」は、皆さんが最も馴染みのある代表値かもしれません。
意味: データを全て合計し、データの個数で割った値です。 計算方法: (データの合計) ÷ (データの個数)
例えば、5人家族の1日の食費がそれぞれ「1000円、1200円、800円、1500円、900円」だったとします。 これらの食費の平均値は、(1000 + 1200 + 800 + 1500 + 900) ÷ 5 = 5400 ÷ 5 = 1080円 となります。
平均値のメリットは、計算が簡単で、全てのデータを使って計算されるため、データ全体の情報をある程度反映している点です。
一方で、平均値には「外れ値(ごく一部の極端に大きい、または小さい値)」に大きく影響されやすいというデメリットがあります。
外れ値の影響の例: 先ほどの家族に、宝くじに当たった親戚が来て、その日の食費が突然「1000円、1200円、800円、1500円、900円、10000円」の6人分になったとします。 この場合、平均値は (1000+1200+800+1500+900+10000) ÷ 6 = 15400 ÷ 6 ≒ 2567円 となります。 たった一人の食費が跳ね上がっただけで、平均値が1080円から2567円へと大きく変わってしまいました。これは、多くのデータ(ここでは5人分)の実態とはかけ離れた値になってしまう可能性があります。
このように、データの中に極端な値が含まれている場合、平均値だけを見ていると、データ全体の「普通」がどこにあるのかを見誤る可能性があることに注意が必要です。
2. 中央値 (Median)
「中央値」は、データを小さい順(または大きい順)に並べた時に、ちょうど真ん中に位置する値です。
意味: データを順番に並べたときの中央の値です。 計算方法: * データの個数が奇数の場合: 順番に並べて真ん中の値。 * データの個数が偶数の場合: 順番に並べて真ん中に来る2つの値の平均。
先ほどの食費の例で考えてみましょう。
データの個数が奇数の場合 (5人): 「800円, 900円, 1000円, 1200円, 1500円」と並べます。真ん中に来るのは3番目の「1000円」です。中央値は1000円となります。これは平均値1080円と近い値です。
データの個数が偶数の場合 (6人、外れ値あり): 「800円, 900円, 1000円, 1200円, 1500円, 10000円」と並べます。真ん中に来るのは3番目と4番目の値(1000円と1200円)です。この場合の中央値は、(1000 + 1200) ÷ 2 = 1100円 となります。 平均値が約2567円だったのに対し、中央値は1100円です。いかがでしょうか? 10000円という外れ値にほとんど影響されず、元の5人分のデータの実態に近い値になっていることが分かります。
中央値の大きなメリットは、外れ値の影響を受けにくい点です。給与や不動産価格のように、一部に非常に高額なデータが含まれるような場合、平均値よりも中央値の方が「一般的な値」をより正確に表すことが多いです。
デメリットとしては、計算のためにデータを全て並べ替える必要があること、そして全てのデータ値そのものを使って計算するわけではない(並び順だけを使う)点です。
3. 最頻値 (Mode)
「最頻値」は、データの中で最も頻繁に出現する値です。
意味: データの中で一番多く出てくる値です。 計算方法: データの中で最も回数が多く出現する値を見つける。
例として、あるお店で売れた商品の色を集計したデータが「赤, 青, 青, 黄, 赤, 青, 緑, 赤, 青」だったとします。 このデータの中で最も多く出てくる色は「青」です(4回出現)。「赤」は3回、「黄」は1回、「緑」は1回です。 この場合、最頻値は「青」となります。
最頻値のメリットは、数値データだけでなく、色や性別、カテゴリのような数値でないデータにも使える点です。アンケートの結果や、商品の人気色の集計などに役立ちます。
デメリットとしては、全てのデータ値を使うわけではないこと、そして、データによっては最も頻繁に出現する値が複数あったり(例: 「赤」も「青」も同じ回数で一番多い)、逆に全ての値が1回ずつしか出現せず最頻値が存在しなかったりする場合がある点です。
どの代表値を使えばいい?使い分けのポイント
データ分析で「どの代表値を見ればいいの?」と迷った時は、以下の点を考慮してみてください。
- データの種類:
- 数値データ(身長、体重、売上など)なら、平均値や中央値が有効です。
- カテゴリデータ(色、性別、都道府県など)なら、最頻値が役立ちます。
- データの分布(偏りや外れ値の有無):
- データに極端な外れ値が含まれていない、比較的均等な分布の場合は、平均値がデータ全体の特徴をよく表します。
- データに外れ値がある場合や、一部にデータが偏っている(例: 低価格帯の商品がたくさん売れる)場合は、中央値の方が「一般的な値」の実態に近いことが多いです。
- データを見る目的:
- 「全員に平等に分配したら一人あたりいくらになるか?」のような合計に意味がある場合は平均値。
- 「真ん中の人はどれくらいか?」のように、外れ値を除いた標準的な値を知りたい場合は中央値。
- 「一番売れている商品は何か?」「一番多い意見は何か?」のように、最も典型的なパターンを知りたい場合は最頻値。
このように、データや目的によって、どの代表値を見るべきかは変わってきます。一つの代表値だけでなく、複数の代表値を合わせて見ることで、データの全体像をより深く理解することができます。
Excelで代表値を計算してみよう
これらの代表値は、Microsoft Excelなどの表計算ソフトを使えば簡単に計算できます。
- 平均値:
AVERAGE
関数を使います。例えば、A列に入力されたデータの平均を求めたい場合は=AVERAGE(A:A)
のように入力します。 - 中央値:
MEDIAN
関数を使います。=MEDIAN(A:A)
- 最頻値:
MODE.SNGL
関数(Excel 2010以降)またはMODE
関数(旧バージョン)を使います。=MODE.SNGL(A:A)
または=MODE(A:A)
具体的な操作はここでは詳しく触れませんが、これらの関数を使うことで、手計算することなく大量のデータからすぐに代表値を求めることができます。ぜひ試してみてください。
まとめ:代表値はデータ分析の基本スキル
データ分析において、平均値、中央値、最頻値といった「代表値」を理解し、適切に使い分けることは非常に重要です。これらは、膨大なデータの中からその特徴を抽出し、分かりやすく伝えるための基本的なツールと言えます。
- 平均値: 合計を個数で割った値。外れ値に注意。
- 中央値: 順番に並べたときの中央の値。外れ値に強い。
- 最頻値: 一番多く出現する値。カテゴリデータにも使える。
データ分析は難しいものと思われがちですが、まずはこのような基本的な統計量の意味を知り、身近なデータで実際に計算してみることから始めてみましょう。代表値の理解は、より高度なデータ分析に進むための確実な一歩となります。
この情報が、データ分析を始めてみたいと思っているあなたの役に立てば幸いです。 ```