【18個掲載】バウンディングボックス付きの画像・映像データセット

2020年08月12日

高品質のデータをどのように取得すればよいかは、データサイエンティストや機械学習の開発者があらゆるプロジェクトで直面する課題です。この記事に掲載したリストのデータセットには、既にバウンディングボックスが付与された画像・映像のデータが含まれています。アノテーターを選択して雇用し、トレーニングを行うのは時間も費用もかかります。プロジェクトの規模や範囲によっては、オープンデータから学習データを取得することが可能な場合があります。注釈付きの画像・映像データをお探しの場合、バウンディングボックス付き画像・動画が含まれる以下のデータセットを是非参考にしてください。

 

バウンディングボックスとは

バウンディングボックスとは、画像に写っている物体を囲う四角い箱(矩形)のことで、X座標とY座標によって定義されます。

さらに、画像処理に必要なバウンディングボックス・アノテーションとは、画像の中に指定の物体を囲む作業です。この作業は様々なカスタムAIプラットフォーム上で行うことができます。コンピュータビジョンや物体検出において、バウンディングボックスが一般的なアノテーション方法です。特殊な条件を持つAIプロジェクトのニーズに合わせ、既存のAIプラットフォームに新機能を追加することができるAIベンダーも中にはあります。

 

バウンディングボックスの応用例

ドローンの開発: 航空写真にバウンディングボックスを描ことにより、ドローンの物体追跡能力の強化に役立ちます。
自動運転AI: 走行中の映像フレームに写っている自動車、歩行者、信号などの物体をバウンディングボックスで囲います。その際に移動、変換、回転、拡大縮小などの操作を行って、各画像が正確に囲まれるようにします。開発者はバウンディングボックス付きの画像使い、自動運転AIが対向車や歩行者に衝突しないように学習させます。
OCR: 画像内のテキストをバウンディングボックスで囲い、モデルに文字を認識できるよう学習させます。

 

バウンディングボックス付きの画像・映像データセット

以下のデータセットの画像や動画には、単一物体に注釈を付けたものや同じ画像または動画の静止画像内の複数の物体に注釈を付けたものが含まれています。データセットは動物、医療、車両、その他のカテゴリーに分類されています。 

 

バウンディングボックス付きの動物の画像・映像データセット

猫と犬の品種: 英国・インド研究教育イニシアチブの資金提供により作成されたバウンディングボックス付き画像データセット。37品種の猫と犬の画像から構成される。各クラスに約200件の画像が含まれ、全ての画像に種族や品種がタグ付けされ、動物の頭を囲むバウンディングボックス、画像の前景と背景のピクセルレベルのセグメンテーションが付与されている。

海生動物の動画データセット: オールボー大学によるデータセットで、89本の動画が含まれる。魚、小魚、カニ、エビ、クラゲ、ヒトデの六つのカテゴリーの海生生物にバウンディングボックスが付与されている。

スタンフォード犬のデータセット: 120種類の犬の画像20,000件以上から構成される。品種のラベルとバウンディングボックスが付与されている。

 

バウンディングボックス付きの医療画像データセット

棒状突起スパイン: 研究者マイケル・スミルノフによる医療画像データセット。視覚皮質、プルキンエ、海馬細胞の棒状突起スパインの画像全てにバウンディングボックスが付与されている。

NIH胸部レントゲン: 米国国立保健研究所による大規模な医療画像データセットで、112,000件以上の胸部レントゲン画像が含まれる。30,000人以上の患者から集められた画像は、患部を囲むバウンディングボックスが付与され、疾患に基づいて分類されている。

NIH DeepLesion: これも米国国立保健研究所によるバウンディングボックス付き医療画像データセット。4,427人の患者に行った10,000件以上のCTスキャンから32,000個以上のCTスライスを収集。各画像には一つから三つの患部が含まれ、患部を囲むようにバウンディングボックスが描かれている。

 

NIH DeepLesionによるバウンディングボックスが付与されたサンプル画像

 

マラリア細胞: Broad Instituteによる医療画像データセット。約80,000個の細胞を含む1,364件の画像から構成される。二つのクラスから成る非感染細胞(赤血球と白血球)と四つのクラスから成る感染細胞(ガメトサイト、リング、トロホゾイド、シゾント)が含まれる。各細胞にはバウンディングボックス座標とクラスを記載したラベルが付与されている。

バウンディングボックス付きの車両のデータセット

KITTI車両及び歩行者の検出: KITTI Vision Benchmark Suiteによる物体検出データセットで、7,400件以上の学習用画像から構成される。歩行者と車両が含まれる画像には、手作業で3Dバウンディングボックスが付与されている。

インドのナンバープレート検出: インドの353台の車両の画像が含まれるデータセット。画像229件にはナンバープレートを囲むようにバウンディングボックスが付与されている。

バイクのライセンスプレートを囲むバウンディングボックス

LISA信号機データセット: カリフォルニア州サンディエゴで走行中に撮影した23分間以上の動画から全部で43,000件以上の静止画像を収集。静止画像内の113,888個の信号機にバウンディングボックスが付与されている。 

 

その他、バウンディングボックス付きの画像・映像データセット

電子商取引のアクセサリー及び衣料品: 電子商取引サイトから900件以上の衣料品やアクセサリーの画像を収集したバウンディングボックス付きデータセット。504個のアイテムに手作業でクラス(ジャケット、ジーンズ、シャツ、靴、スカート、サングラス、トップス、ズボン、Tシャツ)がラベル付けされている。 

Google Open Images データセットV5: このリストの中で圧倒的に規模の大きいデータセットであり、おそらく既存の注釈付き画像データセットの中で最大のものの一つ。Googleがクラウドソーシングを活用して収集した画像478,000件以上から構成される。画像には、バウンディングボックス、インスタンスセグメンテーション、画像レベルのラベル、リレーションシップの注釈が付与されている。被写体が6,000以上のカテゴリーに及ぶため、このデータセットを一つのカテゴリーに分類するのは不可能である。データセットは画像のカテゴリーや注釈の種類に基づいて探索可能。

 

漫画109キャラクターの顔と日本語テキスト: 東京大学の相澤・山崎研究所が109冊の漫画を集めて作成したデータセット。109冊の漫画の全てのページにキャラクターの顔と日本語テキストを囲むバウンディングボックスが付与されている。バウンディングボックス顔画像データセットとしても日本語検出データセットとしても活用できる。

人の顔がバウンディングボックスで囲まれた漫画

複数の顕著なオブジェクト: 1200件以上の画像から成るオープンデータセット。各画像には、画像内の顕著な物体の数がラベル付けされ、バウンディングボックス情報が含まれる。

PASCALビジュアルオブジェクトクラス: 2012年のPASCALビジュアルオブジェクトクラスのチャレンジ用に作成されたバウンディングボックス付き画像データセット。各画像にターゲット・クラス・オブジェクトを囲むバウンディングボックスが付与されている。オブジェクトクラスには、人物、鳥、猫、牛、犬、馬、羊、飛行機、自転車、船、バス、車、オートバイ、列車、ボトル、椅子、ダイニングテーブル、鉢植えの植物、ソファ、テレビ/モニターなどがある。

ストリートビュー住居番号: 物体認識アルゴリズムの開発のために、実際の住居番号を撮影した画像を集めて作成したデータセット。Googleストリートビューから取得した600,000件以上の画像に、住居番号を囲むバウンディングボックスが付与されている。

YouTubeバウンディングボックス: このリストの中で最大のデータセットの一つである大規模なバウンディングボックス付き動画データセット。240,000本の動画全てに、23種類の物体を囲む560万個のバウンディングボックスが手作業で付与されている。Googleはこのデータセットで95%のアノテーション精度を誇っている。

CelebFaces属性: 200,000件以上の有名人の顔画像を含む機械学習用のバウンディングボックス付き画像データセット。バウンディングボックスやランドマーク、属性の注釈が綿密に付与されている。 

 

バウンディングボックス付きの画像データセットをお探しですか?

当社は画像データの作成やアノテーションサービスを提供いたします。20年の実績を持ち、迅速かつ正確で費用効果の高い画像データをお約束します。100万人のコントリビューターを擁しておりますので、大量の画像や映像データにも迅速なバウンディングボックス・アノテーション作業をいたします。こちらから、お気軽にご相談ください。

画像のアノテーションをお探しでしたら、お気軽にお問い合わせください。 無料でお見積もりいたします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。