【11個掲載】機械学習に使える映画データセットまとめ

2019年07月18日

本記事では、映画データセットを11件まとめました。映画のデータセットを利用すると、基本的な機械学習の概念を習得できるので、統計的学習の見地から役立ちます。

以下の映画データセットの多くには、キャストやクルーメンバー、スクリプト、上映時間、レビューなどのデータポイントが含まれ、自然言語処理レコメンドエンジン構築などの機械学習プロジェクトに利用できます。 

 

映画データセット

OMDb API: 映画情報を取得するためのウェブサービス。常に更新され、最新の映画が含まれるクラウドソースの映画データベース。

MovieLens 2000万件データセット: 138,000人のユーザーによる27,000本の映画に関する2,000万件の評価と465,000件のタグ付けが含まれている。 

Movie Dataset(映画データセット): 多くの歴史映画やマイナーな映画、カルト映画を含む10,000本以上の映画から構成される。俳優、キャスト、監督、プロデューサー、スタジオといった情報が含まれる。

コーネル映画の会話コーパス: 映画の登場人物のペア10,292組の間の会話 220,579件が含まれるコーパス。 

The Movie Dataset(映画データセット): 2017年7月以前に公開された映画45,000本のメタデータ。キャスト、クルー、プロットキーワード、予算、興行収入、ポスター、公開日、言語、制作会社、国、TMDBにおける投票数と投票の平均などのデータポイントが含まれる。 

32000本の映画の字幕に関する言語データ(IMBDbメタデータ付き): 32,000本以上の映画に関するメタデータが含まれ、メタデータは字幕ファイルの単語数カテゴリーに一致させている。

フランス国立映画センターデータセット: フランス映画に関するデータセット。ボックスオフィスデータも含まれる。 

映画産業: 6820本の映画(1986年から2016年までの映画を毎年220本分収録)が含まれる。それぞれ予算、企業、国、監督、ジャンル、興行収入、評価、公開日、上映時間、IMDbユーザーの評価、主演俳優といったデータポイントが含まれる。

映画の中の猫: 映画に登場するあらゆる猫を追跡したデータセット。監督、プロデューサー、公開日で映画を検索可能。 

映画における死者数: アクション映画やSF映画、戦争映画における殺害人数、死者数などをまとめたデータセット。

インドの映画館: 各映画館のスクリーンサイズや収容人数、チケットの平均価格、位置座標が含まれるデータセット。

 

LionbridgeのAI教師データサービス

お探しの映画データセットが見つからない場合は、当社が作成いたします。データサイエンティストや言語学者を含み、100万人のアノテーターが登録されているので、大規模なAIプロジェクトも迅速且つ正確に仕上げます。当社がお手伝いできることについて、ご相談や無料トライアルはこちらからお問い合わせください。

AI向け教師データを提供し、研究開発をサポートいたします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。