データ分析で扱うデータの種類って? 数値と文字を理解する【入門】
導入:データ分析の第一歩は「データの種類」を知ることから
データ分析を始めようと思ったとき、目の前のデータが「数字」で埋まっていると想像する方が多いかもしれません。確かに数字はデータ分析において非常に重要ですが、実は数字だけがデータではありませんし、同じ数字でも意味合いが異なることがあります。
データ分析の基礎を学ぶ上で、まず最初に理解しておきたいのが「データの種類」です。どんな種類のデータがあるのかを知ることは、そのデータをどのように扱い、どのように分析すれば良いのかを判断するための重要な手がかりになります。データの種類を正しく理解していないと、適切な分析手法を選べなかったり、間違った結論を導いてしまったりする可能性があります。
この記事では、未経験者の方でも分かりやすいように、データ分析でよく扱う基本的なデータの種類について解説します。特に、ビジネスの現場でよく見かける「数値データ」と「カテゴリデータ」を中心に、それぞれの特徴や簡単な扱い方を見ていきましょう。
なぜデータの種類を知ることが大切なの?
データ分析の目的は、データから何か役立つ情報や知見を得ることです。そのためには、データが持っている性質に合わせて、適切な方法で扱う必要があります。
例えば、商品の「売上個数」の平均を計算することは意味があります。しかし、商品の「種類」(例: 服、食品、雑貨)の平均を計算しても、意味のある情報は得られません。このように、データの種類によってできること、できないことが変わってきます。
これからデータ分析の学習を進める上で、データの種類に関する知識は必ず役立ちます。まずは、代表的な2つの種類から理解を深めていきましょう。
1. 数値データとは?
数値データは、その名の通り数値で表されるデータです。足し算や引き算、平均を計算するといった、数学的な計算に意味があるデータのことを指します。
具体例
- 売上高: 特定の期間の売上の合計金額
- 商品価格: 商品の値段
- 顧客の年齢: 顧客の年齢(〇歳)
- アクセス数: ウェブサイトへの訪問者数
- 気温: その日の最高気温や最低気温
Excelでいうと、セルに数字が入っていて、SUM関数やAVERAGE関数などの計算ができるイメージです。
簡単な扱い方・分析方法
数値データは、計算によって様々な特徴を捉えることができます。
- 合計値: 全体の量を把握する(例: 総売上)。
- 平均値: 全体の傾向を掴む(例: 1日の平均アクセス数)。
- 最大値・最小値: 極端な値や範囲を知る(例: 最も売れた商品の価格、最低気温)。
- 中央値: 外れ値の影響を受けにくい真ん中の値を知る(少し専門的になりますが、平均値とセットで使われることがあります)。
これらの計算は、Excelの関数(SUM, AVERAGE, MAX, MIN, MEDIANなど)を使えば簡単に行えます。
グラフでの表現
数値データの変化や分布を見るのに適したグラフとしては、以下のようなものがあります。
- 折れ線グラフ: 時間による変化を見る(例: 月ごとの売上推移)。
- 棒グラフ: 項目ごとの数量を比較する(例: 商品Aと商品Bの売上個数)。
- ヒストグラム: データがどのような値の範囲にどれだけ分布しているかを見る(例: 顧客の年齢層別の人数)。
データの種類が数値データであることを理解すると、「このデータなら折れ線グラフで推移を見るのが良さそうだな」といった判断がしやすくなります。
2. カテゴリデータとは?
カテゴリデータは、データが属する分類やグループを表すデータです。数値で表されることもありますが、その数値自体に計算上の意味はありません。あくまで「分類」を示すための値です。質的データと呼ばれることもあります。
具体例
- 性別: 「男性」「女性」「その他」など
- 商品の種類: 「食品」「衣料品」「雑貨」など
- 都道府県: 「東京都」「大阪府」「愛知県」など
- アンケートの選択肢: 「満足」「普通」「不満」など
- 顧客ID: 顧客を区別するための固有の番号(数字ですが計算に意味はない)
- 郵便番号: 地域を示す番号(数字ですが計算に意味はない)
Excelでいうと、セルに「東京」「大阪」のような文字が入っているイメージです。顧客IDのように数字であっても、その数字を足したり割ったりすることに意味がない場合はカテゴリデータとして扱います。
簡単な扱い方・分析方法
カテゴリデータに対しては、数値データのような計算はできません。主に集計や割合の計算を行います。
- 個数集計: 各カテゴリに属するデータの数を数える(例: 性別ごとの人数、商品種類ごとの販売個数)。
- 割合の計算: 各カテゴリが全体に占める割合を計算する(例: 全体顧客のうち男性が何割か)。
これもExcelで、COUNTIF関数やピボットテーブル機能を使えば簡単に行えます。特定の条件に合うデータの個数を数えたり、複数のカテゴリを組み合わせて集計したりできます。
グラフでの表現
カテゴリデータの分布や内訳を見るのに適したグラフとしては、以下のようなものがあります。
- 棒グラフ: 各カテゴリの個数や割合を比較する(例: 都道府県別の店舗数)。
- 円グラフ: 全体を100%として、各カテゴリが占める割合を見る(例: アンケート回答の内訳)。
データの種類を理解する重要性(まとめ)
この記事では、データ分析の基礎として「数値データ」と「カテゴリデータ」という2つの代表的なデータの種類をご紹介しました。
改めて、これらの種類を理解することがなぜ重要なのかをまとめます。
- 適切な分析方法を選べる: データの種類によって、使える分析手法(計算、集計など)や知りたい情報が異なります。
- 分かりやすいグラフを作成できる: データの種類に適したグラフを選ぶことで、分析結果を効果的に伝えることができます。
- 前処理の考え方が変わる: 例えば、数値データに「欠けている値」があった場合と、カテゴリデータに「表記ゆれ」(例: 「東京」「トウキョウ」)があった場合では、データの準備(前処理)の方法が異なります。
データ分析の学習は、まず目の前のデータがどんな性質を持っているかを知ることから始まります。今回の内容で、データの種類に対する基本的な考え方を掴んでいただけたら嬉しいです。
データ分析では、データの種類を理解した上で、さらに「データの前処理」を行ったり、「目的」に合わせて分析手法を選んだりしていきます。次のステップとして、ぜひ他の入門記事も参考にしてみてください。