
データクレンジングとは
AIにおけるデータクレンジングとは、顧客サポート向けのチャットボットからレコメンドエンジンまで、どのようなAI開発にも第一ステップとして必須な作業であり、教師データを使用目的に適させるように加工する工程をいいます。データ整備や前処理ともいう。
データクレンジングの手法
データクレンジングの手法は、そのデータの種類によって異なります。基本的に、エクセルファイルなどの構造化データですと、セル統合や書式などを外し、データの欠損値や重複などを特定し、クレンジングしていきます。エクセルファイルのデータクレンジングにつきましては、以下の動画もご覧ください。画像などの非構造化データは、反転、回転、拡大縮小、明るさの編集などもデータクレンジングの作業に含まれることが多いです。
データクレンジングの進め方
まず、既存データの品質を確かめます。欠損値、表記の揺れ、不整合、誤り、ノイズ、重複などがないかご確認下さい。そして、発見された欠損値の補完やノイズの除去などを行っていきますが、その際にはデータの使用目的を考慮しながらクレンジングを進めてください。場合によっては、例えば欠損値を埋めなくても良いこともありますので、余計な手間を取らないためにもなるでしょう。
当社のAI学習データサービス
当社は教師データのクレンジングやアノテーションサービスを提供し、AIの研究開発を支援しております。100万人の認定データサイエンティストやアノテーターが当社開発のAIプラットフォームに登録されており、20年に渡るAIプロジェクトの実績がございます。無料トライアルやご相談は、こちらからお気軽にお問い合わせください。
AI向け教師データの作成やアノテーションサービスを提供し、研究開発を支援いたします。