【50個掲載】機械学習に使えるデータセットまとめ

ミリアム・アリ | 2019年07月08日

この記事は英語簡体字中国語で読むこともできます。

 

機械学習に必要不可欠な「学習データ」とは?

学習データとは「機械学習モデルを学習させるための情報 (データ)」と定義づけられます。学習データの中には、入力データと、それに対する、期待される出力データの両方が含まれます。学習データの入力と出力データを「グラウンドトゥルース (ground truth)」と呼びます。機械学習モデルはこのグラウンドトゥルースに基づいて、ニューラルネットワークなどのテクノロジーを用いて、高精度のアルゴリズムを生成していきます。

この記事では、機械学習において不可欠な「学習データセット」を取り上げます。保存版として、インターネットで公開されているオープンソースのデータセットをまとめてみました。

データセットを探す際に、まず心に留めておくべき指針があります。。

  • データの整理に膨大な時間を費やしたくないため、データセットは雑然としていてはならない。
  • 行や列が少なめのデータセットのほうが作業がしやすい。
  • そのデータから具体的に何の「問題」の回答を期待しているのか、味覚にしなければならない。

 

機械学習用のデータセットを検索できるサイト

Kaggle: 外部から投稿された様々な興味深いデータセットを提供しているデータサイエンス・サイト。 総合リストでは、ラーメンの評価 、バスケットボールのデータ、米シアトル市のペット免許など、ありとあらゆるニッチなデータセットを見つけることができる。

カリフォルニア大学アーバイン校機械学習リポジトリ: インターネット上で最も歴史あるデータセット情報源のひとつで、面白いデータを探しているなら、最初にあたってみるべきサイト。データセットの大多数は整理されてますが、ユーザーが提供したものであるため、データが整理されているという保証はありません。が、登録しなくても、サイトから直接データをダウンロードできる。

 

機械学習に使えるデータセットのまとめ

政府のデータセット

Data.gov: 様々な米国政府機関のデータをダウンロードできるサイト。政府予算から学業成績スコアに至るまで、データは多様。ただし、多くのデータはさらなるリサーチを要する。

食物環境アトラス: 地域の穀物が米国の庶民の食生活をどう影響しているか分析するためのデータセット。

学校制度の財政: 米国の学校制度の財政の調査。

慢性疾患データ: 全米各地の慢性疾患の指標に関するデータ。

全米教育統計センター: 米国と世界の教育機関と教育人口のデータ。

UKデータサービス: 英国最大の社会、経済、人口統計のデータ集。

データUSA: 米国の公共データを総合的に視覚化。

 

金融・経済のデータセット

Quandl: 経済・金融のデータ資源。経済指標や株価の予想に使用するモデルの構築に役立つ。

世界銀行オープンデータ: 全世界の人口動態と多数の経済指標・開発指標を網羅したデータセット。

IMFデータ: 国際通貨基金の発表による、国際金融、金利、外貨準備金、商品価格、投資などのデータ。

フィナンシャル・タイムズ市場データ: 株価指標、商品、外国為替など、世界の金融市場の最新情報。

Googleトレンド: インターネット検索と世界中のトレンドニュースに関するデータ検証と分析。

米国経済学会(AEA): 米国マクロ経済の優れたデータ資源。

 

機械学習に使えるデータセットまとめ

画像データセット

Labelme: アノテーション付き画像の巨大なデータセット。

ImageNet: 新たなアルゴリズムに使用するデファクトの画像データセット。WordNetの階層に従って整理されており、階層の各ノードは数百、数千の画像によって表されている。

LSUN: 多くの補助タスク(部屋のレイアウト推定や顕著性予測など)のあるシーン理解。

MS COCO: 一般的画像理解とキャプション生成。

COIL100 : 100個の異なる物体を360度すべての角度で映した画像。

Visual Genome: 視覚に関する極めて詳細な知識を得られるサイトで、10万枚までの画像をキャプション生成している。

Googleのオープン画像: クリエイティブ・コモンズの下で「6,000超に及ぶカテゴリーのラベル付けを施した」画像の900万のURL集。

Labelled Faces in the Wild: 顔認識関連のアプリケーション開発への使用を目的に収集された、人の顔のラベル付けした画像13,000枚。

スタンフォード 犬のデータセット: 20,580枚の画像と120種の犬種カテゴリーから成る。

室内シーン認識: ほとんどのシーン認識モデルは「屋外」のほうが優れているため、利用価値のある極めて特殊なデータセット。67の屋内カテゴリーと、合計15,620枚の画像から成る。

 

感情分析のデータセット

マルチドメイン感情分析データセット: アマゾンの商品レビューに的を絞ったやや古いデータセット。

IMDB レビュー: センチメントの2項分類のための、やや古い比較的小さなデータセットで、25,000の映画レビューが存在する。

スタンフォード・感情ツリーバンク: 感情のアノテーションを付した感情データセット。

センチメント140: 顔文字を取り除いた16万のツイートを使用した人気の高いデータセット。

ツイッター米航空会社センチメント: ポジティブ、ネガティブ、ニュートラルで分類した、2015年2月以降の米国航空会社に関するツイッターのデータ。

 

自然言語処理のデータセット

エンロン・データセット: エンロン社管理職の電子メールのデータ。フォルダーに整理されている。

アマゾン・レビュー: 18年にわたるアマゾンのおよそ3500万のレビューから成る。データには、製品及びユーザー情報、評価、プレーンテキストのレビューが含まれる。

GoogleブックスNgrams: Googleブックスの単語のコレクション。

Bloggerコーパス: blogger.comから収集された681,288のブログ記事のコレクション。各ブログには最低でも200の一般的英単語の使用が含まれている。

ウィキペディア・リンク・データ: ウィキペディアのテキスト全文。400万以上の記事の約19億語から成るデータセット。単語やフレーズ、パラグラフの一部分で検索できる。

グーテンベルク電子書籍リスト: プロジェクト・グーテンベルクの電子書籍のアノテーション付きリスト。

カナダ議会議事録: 第36回カナダ議会議事録の、2カ国語の130万のテキスト。

Jeopardy:クイズ番組「Jeopardy」で使われた20万以上の質問集。

英語のSMSスパム・コレクション: 英語の5,574のSMSスパムメッセージから成るデータセット。

Yelpレビュー: Yelpがリリースしたオープン・データセット。500万以上のレビューから成る。

カリフォルニア大学アーバイン校のスパムベース: スパムのフィルタリングに役立つスパムメールの大型データセット。

 

自動運転用のデータセット

バークレー・ディープドライブBDD100k: 自動運転人工知能のためのデータセットとしては、現在のところ最大。異なる時間帯や天候の下における1,100時間を超える運転経験を撮影した10万超の動画から成る。アノテーション付き画像はニューヨークとサンフランシスコ地域のもの。

百度アポロスケープ: 車や自転車、歩行者、建物、街灯など、26の異なった意味を持つアイテムを定義する大型データセット。

Comma.ai: 7時間超のハイウェイ走行。車の速度、加速、ステアリング角、GPS座標などの情報を含む。

オックスフォード・ロボットカー:英国オックスフォードの同一ルートの走行を1年間にわたって100回以上繰り返したデータ。異なる天候や交通量、歩行者の組み合わせと、建設現場、道路工事などの長期にわたる変化も捉えたデータセット。

都市景観データセット: 50都市の街路シーンを記録した大型データセット。

CSSADデータセット: 自動運転車の認知とナビゲーションに役立つデータセット。開発途上国の道路に大きく偏っている。

KULベルギー交通標識データセット: ベルギーのフランダース地方の物理的に異なる数万の交通標識から得た1万を超える交通標識のアノテーション。

マサチューセッツ工科大学AgeLab: AgeLabが収集した1,000時間を超えるマルチセンサー運転データセットのサンプル。

インテリジェントで安全な自動車研究室: 交通標識、自動車検知、信号機、軌跡パターンなどを含むデータセット。

 

必要なデータセットがまだ見つからない場合は、Lionbridge AIにお問い合わせください。弊社は学習データの収集、アノテーション、検証などのサービスを提供しております。どのような機械学習プロジェクトでもしっかりと支援いたします。世界の各タイムゾーンを渡る、50万人の認定クラウドワーカーが登録されているので、大規模な機械学習プロジェクトも素早く仕上げることができます。

こちらからお問い合わせください。

機械学習用のデータを入手

メディア掲載結果

AI・機械学習の最新情報を配信中

Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。