データクレンジングの進め方

2020年08月19日

データクレンジングとは

AIにおけるデータクレンジングとは、顧客サポート向けのチャットボットからレコメンドエンジンまで、どのようなAI開発にも第一ステップとして必須な作業であり、教師データを使用目的に適させるように加工する工程をいいます。データ整備や前処理ともいう。

 

データクレンジングの手法

データクレンジングの手法は、そのデータの種類によって異なります。基本的に、エクセルファイルなどの構造化データですと、セル統合や書式などを外し、データの欠損値や重複などを特定し、クレンジングしていきます。エクセルファイルのデータクレンジングにつきましては、以下の動画もご覧ください。画像などの非構造化データは、反転、回転、拡大縮小、明るさの編集などもデータクレンジングの作業に含まれることが多いです。

データクレンジングの進め方

まず、既存データの品質を確かめます。欠損値、表記の揺れ、不整合、誤り、ノイズ、重複などがないかご確認下さい。そして、発見された欠損値の補完やノイズの除去などを行っていきますが、その際にはデータの使用目的を考慮しながらクレンジングを進めてください。場合によっては、例えば欠損値を埋めなくても良いこともありますので、余計な手間を取らないためにもなるでしょう。

 

当社のAI学習データサービス

当社は教師データのクレンジングやアノテーションサービスを提供し、AIの研究開発を支援しております。100万人の認定データサイエンティストやアノテーターが当社開発のAIプラットフォームに登録されており、20年に渡るAIプロジェクトの実績がございます。無料トライアルやご相談は、こちらからお気軽にお問い合わせください。

AI向け教師データの作成やアノテーションサービスを提供し、研究開発を支援いたします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。