【12個掲載】機械学習に使える中国語のデータセットまとめ

2019年06月27日

中国はAI技術への投資を増やし、いわゆる「第四次産業革命」の経済効果を利用してきました。実際、中国政府は、世界的なAI開発場として2030年までに1500億ドル規模のAI産業を構築するという目標を自ら掲げています。

そこで、私たちは中国のAI市場に関心をお持ちのお客様のお役に立てるよう、光学文字認識(OCR)から感情分析まで様々なエンドユースをカバーする中国語のデータセットをまとめました。

 

中国語のテキストデータ

 

中国語の光学文字認識(OCR)と手書きデータ

  • 中国語の文字: 約10件のニュース記事に対応する909,818件の手書きの中国語の文字の画像が含まれる。
  • 中国語の文字生成システム: 中国語テキストの光学文字認識に利用できる中国語フォントのデータセット。
  • 実際に目にする中国語のテキスト: 30,000件以上のストリートビュー画像に含まれる約100万個の中国語の文字を収録。各文字には、基となる文字、バウンディングボックス 、六つの属性などの注釈が専門家によって付与されている。属性には、背景の複雑さ、浮き彫りかどうか、手書きか印刷かなどが示されている。

 

中国語の翻訳・対訳テキストデータ

 

中国語の感情分析データ

  • Ren-CECps: 1,500件のブログポスト(11,000個のパラグラフ、35,000個の文章)を収集し、文書のパラグラフや文章に感情をタグ付けしたデータセット。
  • マイクロブログPCU: 西安交通大学の研究者らが新浪微博(シンランウェイボー)から50,000件の投稿を収集して作成したデータセット。フォロー・フォロワー情報などのユーザーメタデータが含まれる。

これらのデータセットが気に入ったら、以前のデータセットの記事も是非ご覧ください。

 

Lionbridge AI について

まだ必要なデータセットが見つかりませんか?Lionbridge AI はお客様の機械学習に合わせたデータセットを300言語で提供しています。弊社の50万人の専門家チームがお客様の機械学習モデルに役立つ学習データの収集、作成、アノテーションサービスを迅速に提供いたします。

こちらからお問い合わせください。

機械学習用の多言語データセットを入手

メディア掲載結果

AI・機械学習の最新情報を配信中

Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。