【11個掲載】機械学習に使える中国語のデータセットまとめ

2020年10月12日

中国はAI技術への投資を増やし、いわゆる「第四次産業革命」の経済効果を利用してきました。実際、中国政府は、世界的なAI開発場として2030年までに1500億ドル規模のAI産業を構築するという目標を自ら掲げています。

そこで、私たちは中国のAI市場に関心をお持ちのお客様のお役に立てるよう、光学文字認識(OCR)から翻訳まで、様々な研究開発に使える中国語のデータセットをまとめました。

 

中国語のテキストデータ

 

中国語の光学文字認識(OCR)と手書きデータ

  • 中国語の文字生成システム: 中国語テキストの光学文字認識に利用できる中国語フォントのデータセット。
  • 実際に目にする中国語のテキスト: 30,000件以上のストリートビュー画像に含まれる約100万個の中国語の文字を収録。各文字には、基となる文字、バウンディングボックス 、六つの属性などの注釈が専門家によって付与されている。属性には、背景の複雑さ、浮き彫りかどうか、手書きか印刷かなどが示されている。

 

中国語の翻訳(テキスト)データ

 

中国語の感情分析データ

  • Ren-CECps: 1,500件のブログポスト(11,000個のパラグラフ、35,000個の文章)を収集し、文書のパラグラフや文章に感情をタグ付けしたデータセット。
  • マイクロブログPCU: 西安交通大学の研究者らが新浪微博(シンランウェイボー)から50,000件の投稿を収集して作成したデータセット。フォロー・フォロワー情報などのユーザーメタデータが含まれる。

これらのデータセットが気に入ったら、以前のデータセットの記事も是非ご覧ください。

 

中国語のOCRや翻訳テキストデータをお探しですか?

お探しの中国語データがまだ見つからない場合は、当社が作成いたします。20年以上に渡る自然言語処理AIの実績を持ち、データ作成・アノテーションサービスを提供しております。翻訳家や言語学者を含み、100万人のアノテーターが登録されているので、大規模な自然言語処理プロジェクトも迅速且つ正確に仕上げます。必要に応じて案件に特化した秘密保持契約も作成できるので、データの安全性も保証しております。ご相談・無料トライアルはこちらから。

機械学習向けの多言語データセットを提供いたします

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。