【30個紹介】機械学習向けTensorFlowデータセット

2020年07月03日

Google Brainの研究者たちが開発したTensorFlow(テンソルフロー)は、機械学習およびデータサイエンス用の最大のオープンソース・データライブラリの一つです。まったくの初心者から経験豊富なデータサイエンティストまで、誰にでも役立つエンドツーエンドのプラットフォームです。TensorFlowライブラリには、ツールや事前学習済みモデル、機械学習用ガイドのほか、オープンデータセットのコーパスが含まれています。この記事では、必要な教師データを見つける際に役立つように、最も規模の大きい機械学習用TensorFlowデータセットをいくつか取り上げて簡単にご紹介いたします。画像、動画、音声、テキストに分類してリストを作成しました。 

 

TensorFlowデータセット(画像)

  1. CelebA: 公開されている画像データセットのうち最大のものの一つ。20万件以上の有名人の画像が含まれる顔の属性データセット。各画像には、顔ランドマーク5個とバイナリ属性アノテーション40個が含まれる。 
  2. Downsampled Imagenet: 密度推定および生成モデルのタスク用に構築されたデータセット。物体、シーン、車、人など130万件以上の画像が含まれる。32×32ピクセルと64×64ピクセルの2種類の解像度で利用可能。
  3. Lsun: シーン認識用に作成された大規模な画像データセット。900万件以上の画像が寝室、教室、ダイニングルームなどのシーンに分類されている。
  4. Bigearthnet: センチネル2号からの衛星画像が含まれる大規模データセット。各画像は、1.2 km x 1.2 kmの地表をカバーしており、43種類のラベルが不均衡に付与されている。 
  5. Places 365: その名の通り、様々な場所やシーンの画像180万件以上を集めたデータセット。オフィス、桟橋、コテージなどのカテゴリーが含まれる。シーン認識タスクに利用できるデータセットとしては最大のものの一つ。 
  6. クイックドロー・ビットマップ: クイックドローデータセットは、クイックドローのユーザーが描いた、345種類のカテゴリーにわたる500万件の画像から構成される。クイックドローデータセットの一部であるこのバージョンには、28 x 28ピクセルのグレースケール画像が含まれる。
  7. SVHN Cropped(トリミング済み家屋番地データセット):  数字認識アルゴリズム用に構築された、スタンフォード大学による家屋番地データセット。32 x 32ピクセルにトリミングされた実際の画像データ60万件が含まれる。
  8. VGGFace2: Google検索エンジンからダウンロードした画像から成る、最大の顔画像データセットの一つ。年齢やポーズ、民族は様々で、各被写体につき平均362件の画像が含まれる。 
  9. COCO: グーグルとFAIR、カリフォルニア工科大学などからの協力者によって作成されたデータセット。世界最大のアノテーション付き画像データセットの一つ。物体検出、セグメンテーション、画像キャプションタスク用に構築され、33万件の画像のうち20万件にアノテーションが付けられている。画像には80種類にわたる150万個のオブジェクト・インスタンスが含まれる。
  10. オープン・イメージズ・チャレンジ2019: 約900万件の画像が含まれており、オンラインで利用できる最大のアノテーション付き画像データセットの一つ。画像レベルのアノテーション、オブジェクトを対象としたバウンディングボックスおよびセグメンテーションマスク、オブジェクト間の関係性が含まれる。 
  11. オープン・イメージズV4: 上記のオープン・イメージズの別バージョン。600種類の異なるオブジェクトクラスから成るバウンディングボックス1460万個が含まれる。バウンディングボックスは人間のアノテーターが手動で描いたもの。 
  12. AFLW2K3D: 全てに3D顔ランドマークが付与された2000件の顔画像が含まれる。3D顔ランドマーク検出モデルを評価するために作成された。 

 

TensorFlowデータセット(動画)

  1. UCF101: 行動認識モデル用に構築された、セントラルフロリダ大学による動画データセット。101個の行動カテゴリーにわたる13,320件の動画が含まれる。
  2. BAIR Robot Pushing: カリフォルニア大学バークレー校AI研究所(BAIR)によるデータセット。何かを動かしているところなど、動作中のロボットを撮影した44,000件の動画を収録。 
  3. Moving MNIST(MNIST動画版):  MNISTベンチマークデータセットのバリエーションで、1万件の動画が含まれる。各動画では、2個の手書き数字が64 x 64ピクセルの画面内を動き回っている様子が撮影されている。
  4. EMNIST: 元のMNISTデータセットの数字が28×28ピクセルフォーマットに変換されている拡張版MNIST。  

 

TensorFlowデータセット(音声)

  1. CREMA-D: 感情認識用に作成された、声の感情表現から成るデータセット。様々な年齢、民族、性別の91人の俳優による音声クリップ7,442件が含まれる。
  2. Librispeech: LibriVoxプロジェクトのオーディオブックから収集した1000時間分の英語の音声が含まれるシンプルな音声データセット。音響モデルと言語モデル両方の学習に利用されている。 
  3. Libritts: グーグル・ブレインのチームメンバーの支援を受けて準備された、英語の音声約585時間分が含まれる。元々、音声合成(TTS)研究用に設計されたが、様々な音声認識タスクに利用できる。
  4. TED-LIUM: 英語版TED Talks110時間分以上が含まれるデータセット。全て字幕付き。
  5. VoxCeleb: 話者識別タスク用に構築された大規模な音声データセット。1,251人の話者による音声サンプルが15万件以上含まれる。

 

TensorFlowデータセット(テキスト)

  1. C4 (Common Crawlのウェブクロールコーパス): 7年間にわたるデータが含まれ、40以上の言語で利用できるウェブページデータのオープンソースリポジトリCommon Cralのデータセット。
  2. 市民のコメント: 50個以上の英語版ニュースサイトから収集した180万件以上のパブリックコメントのアーカイブ。 
  3. IRC Disentanglement: UbuntuのIRCチャンネルから77,000件を超えるコメントを収集して作成されたデータセット。各サンプルのメタデータには、メッセージIDとタイムスタンプが含まれる。
  4. Lm1b: 言語モデルベンチマークとして知られ、10億語が含まれるデータセット。元々、統計的言語モデリングにおいて進捗を測定するために作成されたもの。
  5. SNLI: 人間が書いた文のペア57万件を収録した、スタンフォード大学による自然言語推論データセット。全てのペアは、クラス間の均衡を取るため手動でアノテーションが付与されている。
  6. e-SNLI: 上記のSNLIデータセットを拡張したもの。元のデータセットの57万件の文が、含意、矛盾、中立の3つに分類されている。
  7. MultiNLI: SNLIデータセットに倣って作成されたデータセット。433,000件の文のペア全てに含意情報のアノテーションが付与されている。
  8. Wiki40b: 40種類の異なる言語で書かれたWikipediaの記事から収集したテキストが含まれる大規模なデータセット。データクレンジング済みで、非コンテンツ領域や構造化オブジェクトは削除されている。
  9. Yelp極性レビュー: 極性の高いYelpのレビュー598,000件が含まれる。Yelpデータセットチャレンジ2015に含まれていたデータから抽出。

上記のデータセットは、最も規模が大きく広範に利用されている機械学習用TensorFlowデータセットの一部ですが、TensorFlowライブラリには膨大なデータセットが収められており、常に拡大を続けています。お客様独自のモデルの構築に活用するため、より詳細な情報が必要な場合は、TensorFlowウェブサイトをご覧ください。 

 

LionbridgeのAI学習データサービス

お探しのデータセットが見つからない場合は、当社が作成いたします。自社開発のAIプラットフォームを利用し、お客様のニーズに合ったデータセットを大規模に作成及びアノテーションすることが可能です。無料トライアルやご相談は、こちらからお気軽にお問い合わせください。

AI向け教師データの作成やアノテーションサービスを提供し、研究開発を支援いたします。

メディア掲載結果

AI・機械学習の最新情報を配信中

Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。