【27個掲載】文章、表情、音声の感情分析に使えるデータセットまとめ

2020年04月09日

感情分析とは?

根本的には、感情分析とは文章の裏にある感情を分類、判断することです。

もっとも基本的なものでは、感情分析ツールが文章を「ポジティブ」、「ネガティブ」、「ニュートラル」の三つの感情に分類します。

感情分析はイベントや製品に対する世間の意見を測るのに役立ちます。消費者はツイッターで「ネガティブ」な不満をぶちまけたり、アマゾンに口コミを投稿したり、ポジティブな感情とネガティブな感情の両方をソーシャルメディアで表現します。感情分析はそうしたデータの波をかき分けながら、人々が実際に何を考えているのかを突き止める、マーケティングには特に便利なツールです。例えば、SENSY株式会社は顧客の感性による、マーケティングの効率化や最適化をサポートする人工知能サービスを企業向けに開発しています。

 

文章、表情、音声の感情分析に使えるデータセット

この記事では、文章、表情、音声の感情分析に使えるデータセットを28件紹介していきます。皆さんの機械学習にお役立てれば幸いです。

文章の感情分析

Twitter日本語評判分析データセット: Twitterの日本語評判分析データセットは、ツイートの評判情報をクラウドソーシングにより分析され、分析結果が公開されております。

OpinRankデータセット: トリップアドバイザーと車の情報サイト、エドマンズのウェブサイトから車やホテルの完全なレビューをトータルで30万件収集したデータセット。

レストランレビューデータセット: ニューヨーク地域のレストランの52,000件のレビューをレーティング付きで収集。

センチメント140: 16万件のツイートから顔文字を取り除き、6種類のフイールドで構成したデータセット。特に、ブランドマネジメントや世論調査に役立つ。

論文レビューデータセット: 学術論文レビューの意見を予測するために作成されたデータセット。コンピューティングに関するカンファレンスからスペイン語と英語のレビューを収集。

 

感情辞書

81言語の感情用語集: アフリカーンス語からイディッシュ語まで81言語の単語をポジティブな感情とネガティブな感情に分類したデータセット。

SNOW D18 日本語感情表現辞書: 日本語の感情表現を集めたデータセットです。2000の表現が48の感情に分類されています。アノテーターは3名で、アノテーターごとの結果を利用できます。

映画および金融辞典:映画と金融分野に限定し、映画のレビューや財務書類で使用される単語をポジティブとネガティブな感情に分類した辞典のライブラリ。

 

商品レビュー

マルチドメイン感情分析データセット: 含まれている商品レビューの数は合計で数十万件にも及ぶ。アマゾンの様々な商品分野でポジティブな感情とネガティブな感情のファイルを持つ。

アマゾン商品データ: スタンフォード大学のジュリアン・マコーリー教授が収集した1億4280万件のアマゾンの商品レビュー。このデータセットの「一部」はこのサイトですぐダウンロード可能。

 

映画レビュー

コーネル映画レビューデータ: 感情分析に利用できるように、コーネル大学が様々な映画レビューデータへのリンクを提供している。ポジティブとネガティブ、レーティング、主観的な文章と客観的な文章などで分類されている。

スタンフォード・センチメント・ツリーバンク: スタンフォード大学が映画批評サイト、ロッテントマトのレビューのHTMLファイルから収集した1万件以上のデータセット。

Bag of Words Meets Bags of Popcorn: ラベル付けされた5万件のIMDB映画レビューから成るデータセット。2項分類を含む感情分析ユースケースに役立つ。

 

表情の感情分析

顔画像データセットから、人間の表情から感情を読み取るモデルを構築し、マーケティングやプロモーション活用などのツールとして使用できます。

インド映画の顔表情データベース: 100名のインド人俳優の、34,512枚の顔表情の写真を含むデータセットです。全ての写真は手動でアノテーションされています。

インド映画の顔表情データベース

 

イエールの顔画像データベース: 28人のモデル、9つのポーズ、64の照明設定から成る、16,128枚の顔画像を含むデータセット。

 

UMDFaces: 8,200人の顔写真に、367,000個のアノテーションが付けられたデータセット。さらに、キーポイントアノテーション付きの300万枚の映像フレームもあります。このデータセットは研究目的のみに公開されていますので、ご利用の際はご注意ください。

umdfaces.ioより

 

日本人女性の表情データベース: 10名の日本人女性の、7つの表情をする顔写真データセット。各写真は60名により検証されています。

Affectiva: 38万時間の顔映像を含むデータセット。テレビ番組や広告など、メディアコンテンツが多いが、運転や会話をしている人の映像なども最近追加されています。

Google表情比較データセット: 表情の感情解析向けに作成され、人力でアノテーションが付与されたデータセット。

ランドマークアノテーション付きの顔画像データセット: このデータセットは7000枚以上のキーポイントアノテーション付きの顔画像を含みます。キーポイントの数は一枚の顔画像で最高15個付いています。

Flickr Faces: 画像・映像をアップロードし、共有できるサイト「Flickr」から21,000枚の顔画像を含むデータセットです。

CelebFaces: 40種類の属性注記の付いた有名人の画像 200,000 件以上で構成された顔のデータセット。

 

音声の感情分析

音声の感情分析の定番の活用例はコールセンターの業務改善ですが、その他にもラジオや音楽でも導入されます。

音声感情分析: コールセンターでの通話中、顧客の感情を解析するために作られたデータセット。300件のコールセンターの通話の音声ファイルを含む。落ち着き、喜び、悲しみ、怒り、恐怖、驚き、などの感情アノテーションが付与されています。

音声の感情分析: 声認証の音声感情分析データセット。

RAVDESS: 7,356件の音声ファイルを含むデータセット。アメリカ英語話者の発話に、落ち着き、喜び、悲しみ、怒り、恐怖、驚き、などの感情とそれに対するレベルのタグが付与されています。

TESS: トロント大学初のデータセットで、2,800データポイントを含む。200単語を7つの感情で発話されている音声データセットです。

パニック・アット・ザ・データセット: パニック・アット・ザ・ディスコの曲だけで構成されたデータセット。感情分析のためにラベル付けされている。

 

音声感情分析サービスの紹介

音声の感情分析技術(感情解析)は常に進化を続け、国内でも開発及び導入が進んでいるます。以下に音声感情分析を提供している企業を紹介します。

Empath: コールセンターを強みとする、音声感情解析AIです。音声の物理的特徴量を解析することで、言語に依存せずリアルタイムで喜び、平常、怒り、悲しみの4つの感情と元気度を解析します。

Emotional Signature Japan: 音声感情解析AIのシステム開発、パーソナル診断やコールセンターなど、幅広いソリューションを提供している会社。

Deep Sea: オペレーターのコミュニケーションを感情レベルで解析し、離職リスクのある方を早期にトク的、対策を練る事ができる、従業員満足度改善システムを提供されています。

 

このリストを気に入っていただけたら、過去のデータセット記事も是非ご覧ください。

 

感情分析のデータセットをお探しですか?

お探しのデータセットが見つからない場合、当社が作成いたします。お客様のニーズに合わせた感情分析データセットを300言語で提供しております。ソーシャルメディア(SNS)やWeb広告の感情分析を支援した実績もございます。当社の100万人の言語エキスパートが、機械学習用のデータセットを提供いたします。無料見積もり・お問い合わせはこちらから。

AI開発に肝心な学習データを提供いたします

メディア掲載結果

AI・機械学習の最新情報を配信中

Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。