機械学習における「データ前処理」効率を上げるには? 富士通クラウドテクノロジーズを取材

2020年07月02日

機械学習における、最も重要なステップといっても過言ではない、データ前処理。前回取材では、富士通クラウドテクノロジーズさんにデータサイエンティストの仕事内容についてお伺いし、8割程度ががデータ前処理だとお聞きしました。

今回取材したのは、富士通クラウドテクノロジーズのデータサイエンティスト、吉田孟弘氏と堀貴仁氏です。機械学習におけるデータ前処理について、詳しくお伺いしました。

 

取材者紹介

堀貴仁氏: 主に統計や機械学習を活用し不動産業界の価格推計や、飲食店の需要予測などに取り組み、データ前処理からモデル作成まで、一貫した役割を担っている。

吉田孟弘氏: 製造業の画像解析をメインに取り組む。工場の現場における機械学習の活用、ユーザビリティを含め、データサイエンスや画像認識の導入をサポートしている。

 

機械学習における「データ前処理」とは

堀氏: 会社によって意味が異なることもありますが、富士通クラウドテクノロジーズでは、データ分析前の作業全般をデータ前処理と呼んでいます。データ結合、データ変換、データクレンジング(異常値の排除、欠損データの補完など)を含む作業を全体的に「データ前処理」とよびます。

 

データ前処理の課題と対策

必要なデータ前処理は、構造化データと非構造化データで異なります。

堀氏: 構造化データは、エクセルなどで作成された場合はセルの結合の解除、正しいcsvフォーマットへの変換などを行い、分析がしやすいRDB(relational data base)の形式に変えて進めていきます。また、モデリングのための前処理では、時系列データを例に挙げると、商品の売れ具合など、周期性のあるものが多く、季節調整などを行う必要があります。画像データの分析では、非構造化データとして取り扱われることが多いですが、領域抽出や分類問題などは構造化されたラベルデータを用いて分析していくため、欠損処理など適切な前処理が必要になります。

吉田氏: 非構造化データの前処理では、現場でどう使われるかを考慮することが大事です。動きによるブレを補正したり、光による白飛びの対処などを行います。機械学習モデルに必要なデータを十分に保有していない場合は、データ拡張手法を利用し、画像データセットを水増しします。同じ物体でも角度、拡大縮小、光の当たり方(例えば昼と夜、ブルーライトと赤いライトの下、など)が異なれば、画像として見え方が異なります。現実的にありえる状況を再現したデータセットを作成するために、画像を上下左右にずらす、反転する、回転する、斜めに歪める、一部を切り取る、コントラストを変える、などの処理を行います。

 

データ前処理の勉強法

吉田氏: Arxivに前処理のカテゴリがあるので、論文を読み、色んな事例の情報をインプットするように心がけています。学会やYouTube講座などもオンラインで気軽に見れますし、お勧めします。「機械学習の学会」と聞くと難しいイメージを持つ人が多いですよね。でも、新しい研究開発について自由にディスカッションをできる場なので、ぜひ参加してみてください。

 

堀氏: 最初はKaggleのコンペに参加し、他の人の分析結果なども見て、実践を通して勉強していました。今では吉田と同じく、論文を読んで勉強していますが、最初から論文を読むのは難しかったですね。

 

データ前処理を効率的に進めるには

堀氏: お客様と頻繁にコミュニケーションをとることです。データの前処理の実装そのものより、様々な状態がなぜ起きているかの判断や、適切な前処理の手法を選択するほうが難しいです。お客様とコミュニケーションをとって、ニーズに合ったものを作って行くことを心がけます。

 

データ前処理をもっと手軽に

自分のデータはAI活用できるか?そしてどんな課題があるかわからない….。このような課題を解決してくれる「データアセスメントレポート」サービスについてお伺いしました。

データ前処理のサービス「データアセスメントレポート」

堀氏: csvファイルをご用意し、ドラッグアンドドロップでウェブ上のシステムにアップロードするだけです。結果として、カラムごとのヒストグラム、外れ値、欠損などの特定、つまりデータサイエンティストが最初に行う業務を出してくれます。

データアセスメントレポートの詳細やお申込みはこちらから。

 

富士通クラウドテクノロジーズについて

クラウドコンピューティング技術を中核に、企業のインフラ環境・製造業やサービス業の人工知能(AI)活用ソリューション・アプリ開発環境・IT活用への取り組みを支援しております。詳細・お問い合わせはこちら。

 

Lionbridge AIについて

教師データの作成やアノテーションを提供し、機械学習の研究開発を支援しております。100万人の認定コントリビューターが登録されており、20年に渡るAIプロジェクトの実績がございます。詳細・お問い合わせはこちら。

AI向け教師データの作成やアノテーションサービスを提供し、研究開発を支援いたします。

メディア掲載結果

AI・機械学習の最新情報を配信中

Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。