データクレンジング

Data Cleaning

AI用語

解説

AIに学ばせる前に、データの誤りや重複・不整合を取り除いて整える作業のこと。データ品質が低いままAIを動かすと、誤った結果しか出てこない原因になります。

さらに詳しく解説

データクレンジングとは、AIや分析ツールに読み込ませる前に、データの中にある誤字・重複・欠損・フォーマットのばらつきなどを修正・削除して、使える状態に整える作業のことです。

たとえば、顧客名簿に同じ会社が「株式会社〇〇」「(株)〇〇」「〇〇株式会社」と3種類の表記で登録されていると、AIは別会社と判断してしまいます。このような不整合を統一する作業がデータクレンジングにあたります。

AI導入の失敗事例では、「システムを入れたのに精度が上がらない」という声の多くが、このデータクレンジング不足に起因しています。AIはあくまでも与えられたデータをもとに学習・判断するため、入力データが汚ければ出力も必ず汚くなります(Garbage In, Garbage Out)。

中小企業では、長年Excelや紙で管理してきたデータをそのままAIに渡そうとするケースが多く、クレンジングに予想以上の時間とコストがかかることがあります。AI導入前に「データの棚卸し」を行うことが成功への第一歩です。