機械学習向け画像データセットの作り方

2020年03月10日

画像データのAI活用法は様々ですが(コンピュータビジョン画像分類商品仕分け顔認証AI、など)全ての画像アプリケーションにおける一つの共通点は、開発時に教師データセットが必要となることです。教師データにはインプット情報と、ターゲットとも呼ばれるラベル付き正解のペアが含まれます。領域によっては関連性の高いタグが含まれる場合もあり、機械学習モデルはこれによってより正確な予測を行うことができます。

 

機械学習向け画像データセットの作り方

当社の20年に渡るAIプロジェクトの実績を基盤に、機械学習向けの画像データセットの作り方を解説いたします。

① 課題を設定する

画像データセットを作成する前に、機械学習プロジェクトの課題を明確にします。どのようなモデルを構築し、それによってどのような問題が解決されますか?

もちろん「趣味として機械学習に触ってみる」ことが課題でも問題ございません。その場合は、ご利用される画像データセットにも特別な条件がないと考えられます。

また、企業をAI導入する場合「AIを導入すること」を課題だと勘違いしていませんか?実の課題は「AIを導入すること」ではなく、特定な業務を自動化することや、株価や製品需要を予測すること、などが多く見られます。

 

② 画像データを集める

課題が決まりましたら、早速の機械学習プロジェクトに適した画像データを集めます。基本的に、教師データの質を高め、量を増やすと、機械学習モデルの精度が向上します。オーバーフィッティングを避けるために、必要に応じて少しずつ教師データの量を増やすことも大事になります。必要なデータ量について詳しくは、こちらの関連記事もご覧ください: 機械学習にはどれくらいの教師データが必要か?

社内のデータベースに既存のデータでは不十分な場合、当社はオーダーメイドで画像データセットを作成するサービスを提供しております。100万人の認定コントリビューターがデータ収集に取り組み、ご要望に沿ってアノテーションも付与いたします。当社の教師データサービスの詳細につきましては、こちらからお問い合わせください。

 

③ 画像データにアノテーションを付与する

適量な画像データを集め、整理も完了しましたら、次は機械学習モデルのヒントとなるアノテーションを寄与していきます。例えば画像認識では、画像がインプットデータとなり、アノテーション(ラベル)はその画像に何が含まれているかを示します。

目的によって、同じ画像でも適切なアノテーションの仕方は異なります。画像や映像フレームに描かれた架空の箱であるバウンディングボックスはよく使われます。当社の自社開発アノテーションプラットフォームでは更に、顔認証AIのために人間の顔のパーツ(目、鼻、口、など)をより正確にアノテーションするために、円型のバウンディングボックス機能もございます。目的によっては更に正確なポリゴンやキーポイントアノテーション等もございます。

Lionbridge AIのアノテーションプラットフォーム

少人数のチームが手動でデータアノテーションを行うのは大変手間がかかってしまいます。社内にAIチームがない場合は、当社の画像アノテーションサービスにお任せください。20年に渡り、画像データ周りのサービスを提供してきたノウハウを持ち、100万人の認定コントリビューターが登録されているので、大量の画像データのアノテーションも素早く、正確に提供いたします。無料お問い合わせ・見積もりを行なっていますので、お気軽にご相談ください。

 

機械学習向け画像データセットの作り方について解説させて頂きましたが、お役立ちましたでしょうか。本記事を気に入って頂けた方は、以下の記事もご覧ください。

ビッグデータを効率的に収集するには?
画像認識モデルの学習における、アノテーションの種類

AI開発に肝心な学習データを提供いたします

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。