2つのデータを組み合わせて分析!クロス集計の基本とExcelでのやり方【入門】
なぜデータを組み合わせて見る必要があるのでしょうか?
データ分析に取り組む中で、「この商品を買うのはどんな人だろう?」「この地域の売上が伸びているのはなぜだろう?」といった疑問を持つことがあるかと思います。
ただ単純に商品の売上合計や、地域の売上合計を見るだけでは、このような疑問には答えられません。なぜなら、これらの疑問は、「商品の種類」と「お客様の年代」、「地域」と「売上の増減」のように、複数のデータの関係性を知ることで初めて答えが見えてくるからです。
そこで役に立つのが、「クロス集計」というデータ分析の基本的な手法です。今回は、このクロス集計がどのようなもので、なぜビジネスで役立つのか、そして皆さんが普段使い慣れているかもしれないExcelを使ってどのように行うのかを、ゼロから解説します。
クロス集計とは?単なる集計との違い
クロス集計を一言で説明すると、「2つのデータの項目(変数)を組み合わせて、それぞれの項目の関係性を集計すること」です。
例えば、ある商品の購入データがあったとします。
| お客様ID | 商品名 | 性別 | 年代 | 購入金額 | | :------- | :------- | :--- | :----- | :------- | | 001 | りんご | 女性 | 30代 | 500円 | | 002 | みかん | 男性 | 40代 | 300円 | | 003 | りんご | 男性 | 20代 | 500円 | | 004 | バナナ | 女性 | 30代 | 400円 | | 005 | みかん | 女性 | 40代 | 300円 |
このデータで、
- 単純集計:
- 「りんご」が3個、「みかん」が2個、「バナナ」が1個売れた。
- 「女性」が3人、「男性」が2人購入した。
- 「30代」が2人、「40代」が2人、「20代」が1人購入した。
このような集計は簡単に行えます。しかし、これだけでは「りんごを買ったのはどんな性別、年代の人が多いのか?」は分かりません。
- クロス集計:
ここで「商品名」と「性別」を組み合わせて集計してみましょう。
| 商品名 | 男性 | 女性 | 合計 | | :----- | :--- | :--- | :--- | | りんご | 1 | 2 | 3 | | みかん | 1 | 1 | 2 | | バナナ | 0 | 1 | 1 | | 合計 | 2 | 4 | 6 |
このように、縦軸に「商品名」、横軸に「性別」を置いて集計することで、「りんごは男性より女性に多く買われている」「バナナは女性にしか買われていない(このデータの場合)」といった関係性が見えてきます。
単にそれぞれの項目を合計するだけでなく、項目同士を掛け合わせて集計するのがクロス集計です。これによって、データの中に隠された傾向や関連性を見つけ出す手がかりになります。
どんな時にクロス集計が役立つ?ビジネスでの活用例
クロス集計は、様々なビジネスシーンで役立ちます。いくつか例を挙げます。
- マーケティング・販売:
- 性別・年代別の人気商品: 「どの年代の女性が、どの商品をよく買っているか」を分析し、ターゲット層に合わせたプロモーションを企画する。
- 地域別の売上傾向: 「A地域では冬物がよく売れるが、B地域では夏物が強い」といった違いを把握し、地域ごとの在庫調整や品揃えに活かす。
- 広告媒体と購入者の属性: 「特定のSNS広告を見て購入した人は、どの年代が多いか」を分析し、広告出稿戦略を改善する。
- 顧客分析:
- サービス利用状況と顧客満足度: 「特定のサービスを頻繁に利用している顧客は、総合的な満足度が高いか低いか」を分析し、サービス改善のヒントを得る。
- 人事・組織:
- 部署と勤続年数: 「特定の部署では、勤続年数の長い社員が多いか少ないか」を分析し、組織の特徴を把握する。
- 研修参加者と成果: 「特定の研修に参加した社員は、そうでない社員と比較して業務成果に差があるか」を分析し、研修の効果測定を行う。
このように、2つの項目を組み合わせることで、より具体的な状況や傾向を把握し、次のアクションを考えるための重要な情報が得られます。
Excelでクロス集計を行うには?「ピボットテーブル」を使ってみよう
専門的なツールを使わなくても、皆さんが普段よく使っているExcelで簡単にクロス集計を行うことができます。Excelでは「ピボットテーブル」という機能を使います。
ピボットテーブルは、大量のデータから必要な項目を選び、集計や分析を柔軟に行うための便利な機能です。最初は少し難しく感じるかもしれませんが、基本的な操作はドラッグ&ドロップなので、すぐに慣れることができます。
ここでは、先ほどの購入データの例を使って、「商品名」と「性別」のクロス集計を行う手順を説明します。
準備:集計したいデータを表にする
まず、クロス集計したいデータがExcelで表になっていることを確認してください。データの項目名(列見出し)が一番上の行にあり、その下にデータが入力されている状態です。
| お客様ID | 商品名 | 性別 | 年代 | 購入金額 | | :------- | :------- | :--- | :--- | :------- | | 001 | りんご | 女性 | 30代 | 500円 | | 002 | みかん | 男性 | 40代 | 300円 | | 003 | りんご | 男性 | 20代 | 500円 | | 004 | バナナ | 女性 | 30代 | 400円 | | 005 | みかん | 女性 | 40代 | 300円 | | ... | ... | ... | ... | ... |
このような状態であればOKです。
手順:ピボットテーブルを作成する
-
データの範囲を選択する: クロス集計したいデータが入力されている範囲をマウスでドラッグして選択します。項目名(見出し行)からデータが入力されている最後の行、最後の列まで全て選択します。
-
「挿入」タブから「ピボットテーブル」を選択する: Excelのメニューバーにある「挿入」タブをクリックします。すると、左端の方に「ピボットテーブル」というボタンが見つかるはずです。このボタンをクリックします。
-
ピボットテーブルの作成ダイアログボックスを設定する: 「ピボットテーブルの作成」という新しいウィンドウが表示されます。
- 「テーブルまたは範囲を選択してください」には、先ほど選択したデータの範囲が自動的に入力されているはずです。確認してください。
- 「ピボットテーブルレポートを置く場所を選択してください」では、「新規ワークシート」を選択するのがおすすめです。新しいシートにピボットテーブルが作成され、元のデータはそのまま残ります。
- 「OK」ボタンをクリックします。
-
ピボットテーブルを配置する: 新しいシートが作成され、右側に「ピボットテーブルのフィールド」という作業ウィンドウが表示されます。ここから、集計したい項目を選んで、下の4つのエリア(フィルター、列、行、値)に配置していきます。
- 行(Row): 表の縦方向(行)に表示したい項目をドラッグします。今回は「商品名」を「行」エリアにドラッグします。
- 列(Column): 表の横方向(列)に表示したい項目をドラッグします。今回は「性別」を「列」エリアにドラッグします。
- 値(Value): 集計したい数値や、項目数を数えたい項目をドラッグします。今回は「商品名」を「値」エリアにドラッグしてみましょう。項目名をドラッグすると、その項目の数を数えてくれます(例: りんごが何件あるか)。もし購入金額の合計を知りたい場合は、「購入金額」をドラッグします。デフォルトでは「合計」になりますが、「値フィールドの設定」で平均や個数などに変更もできます。
ドラッグ&ドロップが終わると、左側のシートにクロス集計表(ピボットテーブル)が自動的に作成されます。
ピボットテーブルの見た目を調整する
ピボットテーブルは、右クリックメニューや「ピボットテーブル分析」「デザイン」タブを使って様々な調整ができます。例えば、合計行・列の表示/非表示、デザインの変更などが可能です。まずは基本の表ができればOKです。
作成したクロス集計表を読み解く
作成したクロス集計表を見てみましょう。
| | 列ラベル(性別) | | | | :-------- | :--------------- | :--- | :--- | | 行ラベル | 男性 | 女性 | 総計 | | りんご | 1 | 2 | 3 | | みかん | 1 | 1 | 2 | | バナナ | | 1 | 1 | | 総計 | 2 | 4 | 6 |
※初期状態では「行ラベル」「列ラベル」といった表示になっています。
この表から、以下のことが読み取れます。
- 全体の購入件数は6件です。
- 男性の購入は2件、女性の購入は4件です。
- 「りんご」は男性が1件、女性が2件購入しており、合計3件です。
- 「みかん」は男性が1件、女性が1件購入しており、合計2件です。
- 「バナナ」は男性の購入はなく、女性が1件購入しており、合計1件です。
この結果から、「このデータでは、りんごやバナナは男性より女性にやや人気があるかもしれない」といった仮説を立てることができます。
ポイント: ピボットテーブルでは、数(個数)だけでなく、合計金額や平均金額などを「値」に設定して集計することもできます。例えば、「商品名」と「年代」を組み合わせ、「購入金額」を合計することで、「30代はどの商品を最も多く購入しているか(金額ベース)」といった分析も可能です。
クロス集計から何が分かり、何が分からないのか
クロス集計は、2つの項目の関連性や傾向を知る上で非常に強力なツールです。「〇〇という人は、△△という傾向があるようだ」といった発見が得られます。
ただし、クロス集計の結果はあくまで「関連性」を示しているにすぎません。「りんごは女性に多く買われている」という結果が出ても、「女性だからりんごを買う」という原因と結果の関係(因果関係)を直接示しているわけではない点に注意が必要です。例えば、たまたま女性がりんごをプレゼントとして大量に購入しただけかもしれませんし、男性はターゲットにしていないプロモーションの結果かもしれません。
クロス集計で興味深い関連性が見つかったら、そこからさらに深く掘り下げて、なぜそのような関連性があるのか、その原因は何なのかを考えるステップに進みます。
まとめ:クロス集計はデータ分析の基礎力を高める第一歩
クロス集計は、データ分析の基本的なスキルでありながら、ビジネスの様々な場面で役立つ強力な手法です。単なる合計や平均では見えてこない、データの中の関係性や隠れた傾向を発見する手がかりになります。
今回はExcelのピボットテーブル機能を使ったクロス集計の方法をご紹介しました。特別なツールやプログラミングの知識がなくても、普段使っているExcelで手軽に実践できるため、未経験者の方がデータ分析の面白さを体験するのに最適です。
まずは手元にあるExcelデータを使って、「商品名」と「地域」、「部署」と「評価」など、身近なデータを組み合わせてクロス集計を試してみてください。きっと新しい発見があるはずです。クロス集計でデータの傾向を掴むことは、データ分析の基礎力を高める大切な一歩となるでしょう。