【15個掲載】チャットボット学習に使えるデータセットまとめ

【15個掲載】チャットボット学習に使えるデータセットまとめ
アレックス・ニュウエン | 2019年03月05日

ユーザーからの問い合わせに人間が関与することなく迅速に対応できる優れたチャットボットを作るには、大量のデータが必要です。ところが、チャットボットを開発する際に大きな障害となるのが、複雑なシステムを学習させるためのタスク指向で現実的な対話データを入手することなのです。

Lionbridge AIはチャットボットを学習させるために最適な会話データセットの究極のリストを作成し、質問応答データ、顧客サポートデータ、対話データ、多言語データに分類しました。

 

質問応答データセット

質問応答データセット:学術研究用に作成されたコーパス。ウィキペディアの記事と、そこから手動で作成したファクトイド型質問、それに対する手動で作成した答えから成る。

WikiQAコーパス: オープンドメインの質問応答に関する研究用に収集され、アノテーションされた質問と文章のペアで、公開されている。本物の情報を求める一般ユーザーのニーズを反映し、質問のソースにはBingのクエリのログを使用。各質問は、答えを含む可能性のあるウィキペディアのページにリンクされている。

Yahoo言語データ:Yahoo知恵袋(英語版)から手作業で収集した質問応答データセット。

TREC QAコレクション:1999年から存在する質問応答トラック。各トラックにおいて、オープンドメインでクローズドクラスの質問の回答を含む短いテキストをシステムが取得するよう、タスクが定義されている。

 

顧客サポートデータセット

Ubuntu対話コーパス:Ubuntuの様々な問題に関するテクニカルサポートで使用されたUbuntuのチャットログから抽出した約100万の対話から成る。全データセットには93万の対話と1億語を超える単語が含まれている。

顧客サービスデータセットにおける関係戦略:4つのソースから収集した旅行業界の顧客サービスデータ。2016年8月のTripAdvisor.comにおける3つの商用顧客サービスIVA(インテリジェント仮想アシスタント)と航空会社のフォーラムの会話ログ。

ツイッター上の顧客サポート:Kaggleにあるデータセットで、ツイッター上のブランド大手の300万を超えるツイートと返信から成る。

 

対話データセット

セマンティック・ウェブ・インタレスト・グループIRCチャットログ:自動生成されたIRCチャットログで、2004年まで遡って毎日RDFで入手可能。タイムスタンプとニックネームが含まれている。

コーネル映画対話コーパス:映画の脚本から抽出した、メタデータが豊富に含まれる大量の架空の会話から成るコーパス。617本の映画の登場人物9035人によるやり取りで、10,292組の登場人物が交わした220,579の会話。

ConvAI2データセット:クラウドソーシングプラットフォームYandex.Tolokaを通して採用された人間のエバリュエーターが、チームが提出したボットとチャットしたPersonaChatタスクにおける2000を超える対話から成る。

口語米語サンタバーバラ・コーパス:約249,000語のトランスクリプションと音声、イントネーション単位におけるタイムスタンプから成る。

NPSチャット・コーパス:様々なオンラインチャットサービスの利用規約に従って収集した約50万の投稿の内、10,567の投稿から成るコーパス。

Maluuba目標指向型対話:フライトとホテルを見つけることに関して、タスクを達成したり決断を下したりすることを目的にした会話のオープンな対話データセット。250以上のホテルとフライト、目的地を巡って複雑な会話が交わされ、決断が下されている。

 

多言語チャットボットデータセット

NUSコーパス:SNSのテキスト標準化と翻訳を目的に作成されたコーパス。NUS英語SMSコーパスから2,000のメッセージをランダムに選んだ後、フォーマルな中国語に翻訳することによって構築されている。.

EXCITEMENTデータセット:英語とイタリア語で提供されているデータセットで、顧客からのネガティブなフィードバックから成る。顧客が企業に不満を抱いた理由が述べられている。

 

お探しのデータセットは見つかりましたでしょうか。Lionbridge AIはニーズに応じたチャットボット学習データを300言語でご提供し、ビジネスがより対話で役立つカスタマーサポートを提供できるよう、お手伝いします。

著者紹介
アレックス・ニュウエン

Lionbridgeのマーケティング・マネージャー。米サンフランシスコ市出身、東京住居。好きなものは、音楽、ソフトクリーム、日本語の勉強、そして様々な文化xデザイン。