データの前処理って何? Excelで始めるデータの準備【入門】
データ分析の「前処理」とは何ですか?
データ分析を始めようと思ったとき、「分析ツールをどう使うか」や「どんなグラフを作るか」に目が行きがちかもしれません。もちろんそれらも大切ですが、実はその前にとても重要なステップがあります。それが「前処理(まえしょり)」です。
前処理とは、集めたそのままの状態のデータを、分析に適した形に整える作業のことです。
なぜ前処理が必要なのですか?
想像してみてください。あなたが買い物リストを作るとき、商品の名前がカタカナだったりひらがなだったり漢字だったり、値段のところに「〜円」と書かれていたりいなかったり、中には全く関係ないメモが混ざっていたり…こんなバラバラのリストでは、合計金額を計算したり、どのカテゴリーの商品が多いか調べたりするのが大変ですよね。
データ分析も同じです。集めたデータは、そのままではバラバラで、汚れや抜けがあったりすることがほとんどです。例えば、
- 表記ゆれがある: 「東京都」「東京」「とうきょう」のように同じものを指すのに違う書き方がされている。
- 入力ミスがある: 数字が間違っていたり、本来は数字なのに文字が入っていたりする。
- データが欠けている: 一部の情報(例えば、商品の値段や顧客の年齢)が記録されていない(これを「欠損値(けっそんち)」と呼びます)。
- 不要なデータが混ざっている: 分析に関係ないメモ書きや、テストデータなどが含まれている。
このような状態のデータで分析を行っても、正確な結果を得ることができません。間違ったデータからは、間違った結論しか導き出せないのです。
だからこそ、データ分析を始める前に、前処理でデータをきれいに、統一された状態にする必要があるのです。これは、料理で言えば食材を洗ったり切ったりする「下準備」のようなものです。
Excelでできる簡単な前処理のステップ
専門的なツールやプログラミングを使わなくても、普段お使いのExcelである程度の前処理を行うことができます。ここでは、未経験者の方でも取り組みやすい基本的な前処理のステップをいくつかご紹介します。
1. 不要なデータ(行・列)を削除する
分析に全く関係のない情報が書かれている行や、必要のない列があれば削除します。例えば、データの説明書きや、分析とは無関係なメモなどです。
Excelで不要な行や列を選択し、右クリックして「削除」を選ぶだけで簡単に行えます。
2. 欠損値(データが抜けている部分)を確認する
データが抜けている箇所(空白セルなど)がないかを確認します。欠損値があると、合計や平均の計算がおかしくなったり、その後の分析でエラーが出たりすることがあります。
Excelでは、フィルター機能を使って空白セルだけを表示させたり、条件付き書式で空白セルに色をつけたりすることで、欠損値の箇所を簡単に特定できます。
欠損値の扱い方には、「その行を削除する」「平均値や中央値で補う」「『不明』として扱う」などいくつか方法がありますが、入門段階では「なぜデータが抜けているのか?」を考え、分析の目的に合わせてどのように扱うかを判断することが第一歩です。無理に埋めるのではなく、状況に応じて行ごと削除することも有効な手段です。
3. データの形式を統一する
同じ種類のデータなのに、入力形式がバラバラだと分析ができません。例えば日付であれば、「2023/1/1」「2023年1月1日」「01/01/2023」などが混在している場合です。
Excelの「セルの書式設定」機能を使えば、日付や数値の表示形式を簡単に統一できます。また、文字列の表記ゆれ(例: (株) と 株式会社)がある場合は、フィルターで絞り込んだり、「検索と置換」機能を使ったりして、手作業で修正することも可能です。
4. 重複データを確認・削除する
全く同じ内容のデータが複数行存在している場合、分析結果が歪んでしまうことがあります(例えば、同じ顧客情報が二重に登録されているなど)。これを「重複(ちょうふく)」と呼びます。
Excelには「重複の削除」という便利な機能があります。データ範囲を選択し、「データ」タブにある「重複の削除」をクリックすると、指定した列に基づいて重複している行を自動で見つけて削除してくれます。
5. 簡単なフィルターや並べ替えを活用する
特定の条件を満たすデータだけを抽出したり(フィルター)、データを特定の順番に並べ替えたり(ソート)するのも、前処理の一部と言えます。これにより、データの全体像を把握しやすくなったり、特定のグループに絞って確認したりできます。
Excelのフィルター機能や並べ替え機能は非常に強力で使いやすいため、ぜひ活用してみてください。
前処理のポイント:完璧よりも「分析のため」に
前処理は、やろうと思えばいくらでも時間をかけられる作業です。しかし、データ分析の目的は「分析から知見を得ること」にあります。すべてのデータを完璧にきれいにする必要はありません。これから行う分析にとって、どこまでデータが整っていれば十分なのか? を常に意識することが大切です。
まずは、今回ご紹介したようなExcelでできる基本的なことから始めてみましょう。少しずつデータを整える経験を積むことで、「どんなデータだと分析しにくいのか」「分析にはどんなデータが必要なのか」が見えてくるはずです。
まとめ
データ分析は、分析ツールを使うことだけではありません。集めたデータを分析に適した状態に整える「前処理」が、実は成功のカギを握っています。
前処理と聞くと難しそうに感じるかもしれませんが、Excelでも不要なデータの削除、欠損値の確認、形式の統一、重複の削除など、基本的な作業を行うことができます。
「下準備」としての前処理を丁寧に行うことで、その後の分析がスムーズに進み、より信頼できる結果を得られるようになります。まずは身近なデータを使って、Excelで簡単な前処理にチャレンジしてみてください。
次に、きれいになったデータを使って「どのような分析をすれば、知りたいことがわかるのか?」という分析手法の選び方について学んでいくと良いでしょう。