【14個掲載】テキスト分類に使えるデータセットまとめ

2020年05月07日

テキスト分類とは

テキスト分類とは、特定な文章を読解した上、決められたカテゴリに分ける作業をいいます。また、テキスト分類のデータセットは、コンテンツに従って自然言語テキストを分類するために利用されます。例えば、ニュース記事をカテゴリー別に分類したり、ポジティブな意見かネガティブな意見かによって書籍のレビューを分類したりするほか、テキスト分類は言語検出、顧客からのフィードバックの整理、不正検出にも役立ちます。このプロセスは手動で行うと非常に時間がかかりますが、機械学習モデルで自動化すれば、時間を節約しながら貴重なインサイトを得ることができます。

以下に、商品レビュー、広告評価、ニュース分類、データセットリポジトリなど、インターネットで公開されているデータセットをまとめました。オープンソースデータセットを包括的に見て、機械学習の出発点にしていただければ幸いです。

 

テキスト分類データセットリポジトリ

レコメンドシステムデータセット: カリフォルニア大学サンディエゴ校のコンピューターサイエンス学部准教授ジュリアン・マコーリーの研究で使用されたレコメンドシステムデータセットを集めたもの。ソーシャルネットワーク、商品レビュー、ソーシャルサークルデータ、質問/回答データが含まれる。

TRECデータリポジトリ: Text Retrieval Conference(TREC会議)は、情報検索コミュニティの研究を支援する目的でスタートした。このデータリポジトリには、自然言語処理関連の研究論文と論文で使用されたデータセットが集められている。ニュース記事や質問/回答のセット、スパムなどが含まれる。注意: 非常に古いウェブサイトなので操作が難しい場合もあるが、掘り下げて調べたい方のために提供されている。

Kaggleテキスト分類データセット: Kaggleにはデータサイエンスの作業で利用可能なコードやデータが集められており、様々な活用事例に役立つ公開データセットが19,000個含まれる。テキスト分類データセットも豊富に取り揃えられているが、探しているデータセットを素早く見つけるためには、サイト内の検索および並べ替え機能を利用するとよい。Kaggleは、特定のテキスト分類プロジェクトや研究を奨励するために、金銭的報酬を伴うコンテストも開催している。

GroupLensデータセット: GroupLensはレコメンドシステム、オンラインコミュニティー、モバイルおよびユビキタステクノロジー、デジタルライブラリ、地理情報システムを専門とする研究所。利用可能なデータセットには、MovieLensウェブサイトからのレーティングデータ、WikiLensからのレコメンドデータ、BookCrossingからの書籍のレーティングなど。

 

ユーザー口コミのテキスト分類

Opin-Rankレビューデータセット: TripAdvisorからのホテルレビューとEdmundsからの車のレビューという二組のデータセットが含まれる。TripAdvisorからのデータは、世界10都市の各都市約80〜700軒のホテルに関する259,000個のホテルレビューが含まれ、Edmundsからのレビューは、日付や著者名を含む2007年から2009年までのレビュー全文が含まれる。

大規模映画レビューデータセット: スタンフォードAI研究所によるテキスト分類データセットで、 25,000個の高極性の映画レビューとトレーニング用レビューが25,000個含まれ、感情分析の実験に役立つ。さらに、トレーニングやテストに利用可能なアノテーションなしデータも含まれる。

Twitter米国航空会社感情データセット: ポジティブ、ネガティブ、ニュートラルに分類されたツイートが含まれるTwitterのデータコレクション。ネガティブな理由も「遅延」、「サービスが悪い」などのタイトル別に分類されている。航空会社六社に関する約15,000件のツイートが含まれる。

オンラインコンテンツ評価のテキスト分類

クリックベイト排除・データセット: 「クリックベイトの排除: オンラインニュースメディアにおけるクリックベイトの検出と防止」というタイトルの論文で使用されたデータセット。ユーザーのクリックを誘導する「クリックベイト」かそうでないかに基づいて、16,000個の記事の見出しが分類されている。クリックベイトの記事はバズフィードやUpworthy(アップワーシー)などのウェブサイトから取得し、クリックベイトでない記事はウィキニュースやニューヨーク・タイムズ、ガーディアンなどのサイトから取得。

スパムベース・データセット: 4,601個の電子メールメッセージを含むスパムメールデータベースであり、そのうち1,813個がスパム。個人用スパムフィルターの構築に役立つが、一般的な目的でスパムフィルターを構築するためにはより広範なデータが必要であるとデータセット作成者らは述べている。

ヘイトスピーチおよび暴言データセット: 元々、ソーシャルメディアでヘイトスピーチとその他の暴言を区別することによって、ヘイトスピーチを検出する研究のために利用されたデータセット。「ヘイトスピーチを含む」、「暴言だけを含む」、「どちらも含まない」によってツイートのテキストが分類されている。注意: コンテンツの性質上、データセットには、人種差別、性差別、同性愛嫌悪的な発言や暴言が含まれる。 

ブログ・オーサーシップ・コーパス: 2004年にblogger.comから収集された681,288件の投稿から構成される。19,320人のブロガーの投稿が含まれるこのデータセットには、全部で1億4千万語以上が含まれる。感情分析、要約、その他の自然言語処理ベースの機械学習実験に役立つテキスト分類データセット。

 

ニュースのテキスト分類を行う人の様子

ニュース記事のテキスト分類

AGのニューストピック分類データセット: 学術的ニュース検索エンジンによって2,000種類以上のニュースソースから収集した100万個以上のニュース記事が含まれるAGデータセットを基にしている。オリジナルのAGコーパスから最大のクラスを四つ選択し、各クラスから30,000個のトレーニング用サンプルと1,900個のテスト用サンプルを収集。トレーニング用サンプル総数は120,000個、テスト用サンプル総数は7,600個。

ロイター・テキスト分類データセット: 1987年にロイターのニュースワイヤーで配信された21,578個のロイター記事が含まれるデータセット。トレーニング用13,625個、テスト用6,188個のデータが含まれる。各記事には、日付、トピック、場所、人名、組織、企業などのアノテーションが付与されている。

20ニュースグループデータセット: テキスト分類など、機械学習技術をテキストに応用する実験を行うためによく利用されるデータセット。それぞれ異なるトピックに対応する20種類のニュースグループに分類された約20,000個のニュースグループ記事が含まれる。少し異なる目的に利用できるように、三つのバージョンのデータセットが提供されている。 

 

テキスト分類の活用事例

Traveloka(トラベロカ)は、航空券や宿泊施設、アトラクションなど様々なチケットを扱うワンストップ型プラットフォームを提供するオンライン旅行会社です。時価総額10億ドルを超えるスタートアップである「ユニコーン」の一角を占める東南アジアの会社の一つとして、Travelokaは常に、ユーザー体験を向上させるための方法を探しています。このような取り組みの一環として、Travelokaは数々の人工知能および機械学習に多額の投資を行ってきました。 

19種類にもわたる幅広い主力商品を提供しているため、検索精度の向上は、同社が成長を続ける上で必要不可欠でした。そこで、Travelokaは、ユーザーが単一の検索バーから自社の全商品を簡単に閲覧可能な検索機能を構築しました。 

Travelokaで行われている研究、設計、実装に関する直接責任者であるデッブ・ゴスワミ博士から話を伺いました。デッブはTravelokaで機械学習ソリューションの実装を専門とするチームを監督していますが、アノテーションのソリューションを探し始めた際にLionbridge AIを見つけました。

「Lionbridgeは元々、経験豊富な翻訳会社でした。私たちは、アノテーションに対する彼らの柔軟なアプローチにも感銘を受けました。Lionbridgeが非常に丁寧なサポートを提供し、できる限り私たちのプロジェクトの要件に合わせようとしていることは早い段階から明らかでした」

Travelokaデータサイエンス部門責任者デッブ・ゴスワミ博士

 

Travelokaのチームにとって、データ収集およびアノテーションのために十分な人材を集めることが大きな課題となっていました。そこで、当社は商品カテゴリーの広範なシステムに従って、数千件もの検索クエリを分類できる包括的なソリューションを開発しました。

Lionbridgeの支援を受け、Travelokaの機械学習チームは、検索エンジンのコア技術の開発に集中することができました。その結果、Travelokaは、高品質のデータを利用し、広範な言語知識に裏付けられた検索エンジンを自信を持って迅速に立ち上げることができました。

「私たちは過去の経験から、効果的なアノテーションチームをゼロから構築するのがどんなに難しいかを知っています。特に、フィードバックに基づいて行動する場合など、Lionbridge AIが品質や速度を犠牲にせず拡張できることに私たちは大変満足しています。Lionbridge AIとパートナーを組むことによって、非常に素晴らしい結果を得ることができました。近い将来、アノテーションを利用して検索機能のさらなる改善を行うことを楽しみにしています」

デッブ・ゴスワミ博士

Travelokaのモバイルアプリ

 

Travelokaが新たに実装したユニバーサル検索機能では、ユーザーがワンクリックで76種類もの独自の商品の組み合わせを簡単に検索することができます。今後のリリースでは、Travelokaのアルゴリズムにより、ウェブおよびアプリの両方でユーザーの利便性がさらに改善されていく予定です。Travelokaの新しい検索機能は、こちらからアプリをダウンロードしてお試しいただけます。

Travelokaに提供させていただいたテキスト分類サービスの詳細につきましては、こちらの資料をご覧ください。
また、当社のテキスト分類サービスにつきましては、こちらのページをご覧ください。

Lionbridge AIのテキスト分類サービス

必要データセットが見つからない場合は、当社が作成いたします。100万人の認定アノテーター、データサイエンティスト、プロジェクト管理者がお客様の次のプロジェクトのためにテキストデータを準備いたします。当社のテキスト分類サービスの詳細につきましては、こちらのページを御覧頂くかこちらからお問い合わせください

AI開発に肝心な学習データを提供いたします

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。