生成AI

最終更新日:2024/02/15
データクレンジングは、データの不備や重複などを修正してデータ品質を高める手法を指し、エクセルで簡単に行えます。「データクレンジングのやり方を知りたい」「エクセルで仕分ける方法があるか知りたい」という方も多いのではないでしょうか。本記事では、データクレンジングの概要やメリット、エクセルを用いたデータクレンジングの方法についてわかりやすく解説します。
データクレンジングとは、データの誤りや欠如、重複などを修正し、データの品質を高める手法のことです。企業がデータの分析や活用を行う際、部署や担当者によってデータの形式・粒度がバラバラである場合も多く、そのままでは正しいデータ分析や活用はできません。そこでデータクレンジングをすれば、正確な情報をもとにデータの有効活用ができます。
データクレンジングを行う目的は、データの分析精度を向上させるためです。正確なデータ分析を行ううえでは、元となるデータが正しく、十分に揃っていることが前提となります。そしてデータの品質や形式を整えるためには、データクレンジングが不可欠な作業です。
データクレンジングが必要な場面としては、マーケティング活動や営業活動でのデータ活用などが挙げられます。収集・蓄積したデータを使ってマーケティングや営業を効果的に行うためには、データクレンジングを行ってデータの正確性を担保しておくことが必要です。
AIやビッグデータといった技術が進歩し、デジタル化が進む現代においては、ビジネスにおいてデータを分析・活用する重要性はこれまで以上に高まっています。データ分析の精度が企業の意思決定の成否に影響するため、データクレンジングの必要性は高いといえます。
データクレンジングは、以下の手順に従って行っていくことが一般的です。
【データクレンジングの手順】
前述のとおり、小規模なデータであればエクセルの置換機能を使って簡単にデータクレンジングを行うことが可能です。たとえば、エクセルでは以下のようなことができます。
エクセルの置換機能を使えば、簡単にデータの置き換えができます。たとえば、以下のように「Japan」という文字列が複数あり、これらをすべて「日本」に変更するとします。
この場合、置換機能で検索する文字列を「Japan」、置換後の文字列を「日本」にして置換を実行すれば、一括で置換することが可能です。
実行の結果、以下のようにすべて「日本」にすることができました。
エクセルの置換機能では、文字列の一括削除も可能です。たとえば、以下のように「アジアの日本」という文字列が複数あり、これらから「アジアの」を一括削除するとします。
この場合、置換機能で検索する文字列を「アジアの」、置換後の文字列を「空白」にして置換を実行すれば、一括削除が可能です。
実行の結果、以下のようにすべての文字列から「アジアの」を一括削除することができました。
エクセルの置換機能を使って不要なスペースの削除もできます。たとえば、以下のように都道府県名と「Japan」の間にスペースがある文字列に対して、一括でスペースを削除するとします。
この場合、置換機能で検索する文字列にスペースを入力し、置換後の文字列を「空白」にして置換を実行すれば、スペースの一括削除が可能です。なお、オプション項目で「半角と全角を区別する」にチェックを入れれば、半角スペースと全角スペースを区別することもできます。
実行の結果、以下のようにすべての文字列からスペースを削除できました。
エクセルの置換機能では、「○○を含む」や部分一致といったあいまいな条件の指定もできます。あいまいな条件の指定を行う際は、ワイルドカード(不特定の文字列を指定する際に使用する記号)を使うと便利です。
たとえば、以下のように「鶏肉」・「豚肉」・「牛肉」の3種類の文字列に対して、ワイルドカードを使ってすべて「肉類」に変換するとします。
この場合、置換機能で検索する文字列に「?肉」を入力し、置換後の文字列を「肉類」にして置換を実行すれば置き換えが可能です。ここで使う半角の「?」がワイルドカードであり、「?」の一文字だけで「鶏」「豚」「牛」のすべてを含むことができます。
実行の結果、以下のように「鶏肉」・「豚肉」・「牛肉」の3種類の文字列をすべて「肉類」に置き換えられました。
上記の例に加えて、文字数を指定しない場合の使い方も紹介します。たとえば、以下のように文字数の異なるユーザーコードに対して、ワイルドカードを使ってすべて「JPN_01」に変換するとします。
この場合、置換機能で検索する文字列に「JPN_01*」を入力し、置換後の文字列を「JPN_01」にして置換を実行すれば置き換えが可能です。ここで使う半角の「*」がワイルドカードであり、「*」の一文字だけで「JPN_01」以降のすべての文字数を含むことができます。
実行の結果、以下のようにすべてのユーザーコードを「JPN_01」に置き換えられました。
ここでは、エクセルでデータクレンジングを行うときに知っておきたい関数として、以下の便利な関数を紹介します。
TRIM関数は、不要なスペースを削除したい際に使える関数です。「=TRIM(文字列)」で、指定したセルの文字列の不要なスペースを削除できます。たとえば、下図のようにTRIM関数を使うことで、(株)と会社名の間にある余分なスペースを削除することが可能です。
<関数入力>
<関数実行後>
以降の行も関数をコピーするだけで、下図のように簡単に不要なスペースを削除できます。
CLEAN関数は、不要な改行を削除したいときに利用できる関数です。「=CLEAN(文字列)」で、指定したセルの文字列の不要な改行を削除できます。たとえば、下図のようにCLEAN関数を使うことで、文章内の余分な改行を削除することが可能です。
<関数入力>
<関数実行後>
以降の行も関数をコピーするだけで、下図のように簡単に不要な改行を削除できます。
DATEDIF関数は、年齢や年数などの期間に関するデータを整理したい際に便利な関数です。「=DATEDIF(開始日、終了日、単位)」で、開始日から終了日までの期間に基づく計算ができます。単位には以下のいずれかの条件を指定します。
たとえば、下図のようにDATEDIF関数を使うことで、ユーザーの年齢を自動的に算出することが可能です。
<関数入力>
<関数実行後>
以降の行も関数をコピーするだけで、下図のように簡単に年齢を算出できます。
ASC関数は、指定した文字列の全角を半角に変換したい場合に使える関数です。「=ASC(文字列)」で、指定したセルの文字列の全角を半角に変えられます。たとえば、下図のようにASC関数を使うことで、全角の電話番号を半角に変換することが可能です。なお、半角を全角にしたい場合には、JIS関数を用います。
<関数入力>
<関数実行後>
以降の行も関数をコピーするだけで、下図のように簡単に年齢を算出できます。
RIGHT関数・LEFT関数・MID関数は、データの一部を抜き出したい場合に便利な関数です。RIGHT関数・LEFT関数・MID関数の式はそれぞれの以下のとおりです。
関数名 | 式 | 説明 |
RIGHT関数 | =RIGHT(文字列,文字数) | 文字列の右から指定した文字数だけ抜き出す |
LEFT関数 | =LEFT(文字列,文字数) | 文字列の左から指定した文字数だけ抜き出す |
MID関数 | =MID(文字列,開始位置,文字数) | 指定した開始位置から指定した文字数だけ抜き出す |
たとえばLEFT関数の使用例として、下図のようにユーザーコードの左から3文字だけを抜き出すことが可能です。
<関数入力>
<関数実行後>
以降の行も関数をコピーするだけで、下図のように簡単に年齢を算出できます。
エクセルでデータクレンジングを行う際は、以下のポイントを押さえておくことが重要です。
【エクセルでデータクレンジングを行う際のポイント】
エクセルでデータクレンジングを行う際は、データ活用の目的を考慮して進めることがポイントの一つです。データ活用の目的があいまいな状態では、データの対象やデータクレンジングの方法などが定まらず、効果的なデータ分析を行うことはできません。データ活用の目的によって収集データの種類や範囲、作業方法などが異なる可能性があるため、はじめにデータ活用の目的を明確にしていきましょう。
たとえば、データを営業活動に利用したい場合は、顧客データや過去の販売履歴などのデータを中心に収集することになります。また、エクセルでのデータクレンジングはあくまで簡易的なものであるため、収集対象となるデータの規模によってはエクセル以外のツールを使ったほうが効率的な場合もあります。
エクセルでデータクレンジングを行う際は、データの検証を行うこともポイントです。収集したデータのなかには誤記や古い情報が含まれている場合もあるため、データ内容に問題がないかを確認するようにしましょう。
エクセルは、表記ゆれやデータの重複を機械的に検出・修正することはできますが、データ自体の情報の正しさまでは検証できません。そのため、エクセルの機能だけに頼らず、担当者の目でもデータ内容を確認することが大切です。たとえば、同じ会社の本拠地の情報が2つ存在していた場合、どちらが最新情報であるかを判断するためには目視確認が求められるでしょう。
エクセルでデータクレンジングを行う際は、プロセスの再現性を高めておくことも大事なポイントです。エクセルでのデータクレンジング方法を特定の担当者のみが理解している状況では、担当者の異動や退職が生じた際にデータクレンジングを継続できなくなってしまいます。
継続的にデータクレンジングを行っていくためには、プロセスの再現性を高め、特定の担当者に依存しないよう作業を標準化することが重要です。作業マニュアルなどを作成・共有し、メンバー全員が同じプロセスでデータクレンジングを行える環境を整備していきましょう。
エクセルでのデータクレンジングは一回きりで終わりにせず、定期的にデータ状況を確認することもポイントです。データは常に追加・更新されていくものであり、データクレンジングを行った後にも新たなデータが追加されていくことになります。その結果、データクレンジングを行った時点では表記ゆれやデータの不備を修正できていたとしても、その後にまた表記ゆれやデータの不備が発生していくことになるのです。
そのため、データの品質を担保するためには、定期的なデータクレンジングを行うことが重要です。たとえば、毎月1日、毎週月曜日などのようにタイミングを決め、データクレンジングを定例作業として業務に組み込んでいくことをおすすめします。。
データクレンジングは、データの誤りや欠如、重複などを修正し、データの品質を高める手法です。小規模なデータであれば、エクセルの置換機能を使って簡単にデータクレンジングを行えます。また、TRIM関数やCLEAN関数などの関数を使ってデータクレンジングを行うことも可能です。
データクレンジングを行うことで、データの品質向上や業務効率の改善、データの運用コストの削減などを実現できるでしょう。
業務の課題解決に繋がる最新DX・情報をお届けいたします。
メールマガジンの配信をご希望の方は、下記フォームよりご登録ください。登録無料です。
AI製品・ソリューションの掲載を
希望される企業様はこちら