【25個掲載】英語の自然言語処理に使えるデータセットまとめ

2020年04月03日

英語の自然言語処理に使える無料のオープンデータセットは、どこで探すのが一番いいでしょうか。

Lionbridgeチームはインターネット上を隈なく調べて究極のデータセットのリストを作成し、テキスト、音声スピーチ、感情分析の三つに分類しました。

 

英語の自然言語処理向けテキストデータセット

20のニュースグループ: 20の異なるニュースグループの約2万の文書コレクション。

ロイター・ニュース・データセット: 1987年以降のロイターのテキストのデータセット。

カリフォルニア大学アーバイン校のスパムベース: スパムのフィルタリングに役立つスパムメールの大型データセット。

Yelpレビュー: Yelpがリリースしたオープンなデータセット。500万を超えるレビューから成る。

WordNet:「synset」と呼ばれる英語の同義語グループの大型データセット。意味の異なる語句は別の「synset」に分類される。

青空文庫形態素解析データ集: こちらは日本語になりますが、青空文庫に収録されている作品に対し形態素解析を行ったデータです。CCライセンスで、商用利用も可能。対象の作品は2012/12時点で公開されており、著作権フラグのない11,176作品。

 

感情分析のデータセット

マルチドメイン感情分析データセット: アマゾンの商品レビューに的を絞ったデータセット。

IMDB レビュー: 感情の二項分類のための、やや古い比較的小さなデータセットで、25,000の映画レビューから成る。

スタンフォード・センチメント・ツリーバンク: 感情のアノテーションを付したスタンダードな感情分析に使えるデータセット。

センチメント140: 顔文字をあらかじめ取り除いた16万のツイートを使用した、人気の高いデータセット。

ツイッター米航空会社センチメント: ポジティブ、ネガティブ、ニュートラルで分類した、2015年2月以降の米国航空会社に関するツイッターのデータ。

 

英語の自然言語処理向け音声データファイル

英語発話のデータセット

2000HUB5英語評価記録: 40本の電話の会話から成る英語の発話データ。

LibriSpeech: オーディオブックのデータセット。複数の朗読者による500時間に及ぶオーディオブックから成る。オーディオブックの章で整理されている。

声による性別認識: 声や発話の音響特性に基づいて男性の声か女性の声かを識別するシステムの開発を支援するために構築されたデータベース。男性および女性の話者による音声録音が3,000件以上含まれる。

発話された数字の無料データセット: 英語における1,500の発話された数字の録音コレクション。

TIMIT: 630人のアメリカ英語話者の録音コレクション。

 

その他、英語の自然言語処理向けデータセット

エンロン・データセット: エンロン社管理職の電子メールのデータ。

アマゾン・レビュー: 18年にわたるアマゾンのおよそ3,500万のレビューから成る。データには、製品及びユーザー情報、評価、プレーンテキストのレビューが含まれる。

GoogleブックスNgrams: Googleブックスの単語のコレクション。

Bloggerコーパス: blogger.comから収集した681,288本のブログ記事のコレクション。各ブログには最低でも200の一般的英単語の使用が含まれている。

ウィキペディア・リンク・データ: ウィキペディアのテキスト全文。400万を超える記事の約19億語から成るデータセット。単語やフレーズ、段落の一部分で検索できる。

グーテンベルク電子書籍リスト: プロジェクト・グーテンベルクの電子書籍のアノテーション付きリスト。

カナダ議会議事録: 第36回カナダ議会議事録の、2カ国語の130万のテキスト。

Jeopardy: クイズ番組『Jeopardy』で使われた20万を超える質問集。

英語のSMSスパム・コレクション: 英語の5,574のSMSスパムメッセージから成るデータセット。

 

英語の自然言語処理向けデータセットをお探しですか?

必要なデータセットが見つからない場合は、当社が作成いたします。お客様のご要望に合わせたカスタムデータセットをご提供します。翻訳業界で20年の実績を持つ当社は、意味的アノテーションや感情分析をはじめとする、自然言語関連のタスクを専門分野としております。また、300言語で100万人のネイティブ話者を擁しています。無料見積もり、お問い合わせはこちらから。

AIの研究開発に肝心な学習データを提供いたします

メディア掲載結果

AI・機械学習の最新情報を配信中

Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。