【15個掲載】機械学習に使える面白いデータセットまとめ

2020年12月15日

皆さん、こんにちは。当社ライオンブリッジではこれまでに、機械学習自然言語処理向けのデータセットなど、業界標準の公開データセットをご紹介してきました。

今回は、以前の記事には載らなかった、風変わりで目立たないデータセットをご紹介していきます。特徴的で奇妙なデータセットを集めてまとめました。では、お楽しみください。

 

箸の長さ: 研究者が箸の最適な長さを突き止めようと決意。

紙コップを積み重ねる: このデータはWSSAのウェブサイト (世界スポーツスタッキング協会)で入手でき、部門別や年齢別、競技者別、さらには州や国別の記録を探すことができる。

大麻の価格: 過去の大麻価格のレポジトリ。州によって価格が大きく異なることがわかる。

戦史: モデル化や予測に使用できる、200年近くにわたる国際的脅威や対立のデータ。取られた措置や敵対行為のレベル、死亡者数、結果を含む。

UFOレポート: 過去の8万件のUFO目撃例のデータセット。

ワインの品質: ポルトガル北部産ヴィーニョ・ヴェルデの赤ワインと白ワインのサンプルの2つのデータセット。

キノコ: 物理的特徴で記述されたキノコ。有毒か食べられるかで分類。

100万曲: 現代のポップス100万曲の音響特徴とメタデータの無料コレクション。

映画の中の猫: 映画に登場したすべての猫のデータセット。

ブリュッセルの壁のコミック・アート: ブリュッセルの壁に描かれた全コミック・アートの場所のリスト。描かれているキャラクターと、そのキャラクターを生んだマンガ家の名前も記載されている。

川の中のショッピングカート: 2005年以降にブリストル川に捨てられたショッピングカートの数を毎年集計。

映画の死体数: あのアクション映画で何人死んだのだろうと考えたことはないだろうか。そう、そんな疑問に答えるデータセットが存在する。

100のブリトー: サンディエゴのブリトーを評価する10次元のシステム。

インドの映画館: スクリーンサイズや収容定員、各映画館の平均チケット料金、座標等のデータセット。

『リック・アンド・モーティ』: 包括的な『リック・アンド・モーティ』API。

 

この記事を気に入って頂けた方は、スポーツアニメに関するデータセットのまとめ記事もご覧ください。

 

ライオンブリッジのAI教師データサービス

当社は、AI向け教師データの作成やアノテーションを提供し、研究開発を支援しております。データサイエンティスト、言語学者、認定アノテーターなどを含む100万人のコントリビューターが登録されているので、大規模なプロジェクトも正確に、素早く納品できます。自社開発のAIプラットフォームは、テキストアノテーション、画像のバウンディングボックスや領域検出、音声データの文字起こしや音韻表記など、様々なデータやアノテーションタイプに対応できるため、多言語チャットボット、OCR、顔認証、自動運転など、幅広い研究開発向けの教師データをご用意できます。20年の経験のもと、お客様のご要望に応じて柔軟な対応が可能です。お問い合わせ・無料トライアルのご依頼はこちらから。

AI向け教師データの作成やアノテーションサービスを提供し、研究開発をサポートします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。