【14個掲載】機械学習に使える日本語データセットまとめ

森川怜 | 2019年11月11日

この記事では自然言語処理、チャットボット、感情分析などのモデル開発に使える、日本語のデータセットを紹介いたします。日本語の公開データセットを無料ダウンロードできるポータルサイトや、Twitterの日本語評判分析データセットを含みます。

 

日本語データセットのポータル

  • DATA GO JP: 日本政府のデータカタログサイト。日本政府は、公共データを広く公開することにより、国民生活の向上、企業活動の活性化等を通じ、我が国の社会経済の発展に寄与する観点から、機械判読に適したデータ形式を、営利目的も含めた二次利用が可能な利用ルールで公開する「オープンデータ」の取組を推進しています。このウェブサイトは、二次利用が可能な公共データの案内・横断的検索を目的としたオープンデータの「データカタログサイト」です。
  • 国立情報学研究データリポジトリ: 国立情報学研究所が情報学関連分野の研究者に提供しているデータセットの一覧です。一部,準備中のデータセットも含まれています。
  • Link Data: テーブルデータをRDF形式に変換して公開できる支援サイト。

 

自然言語処理に使える日本語データセット

  • 自然言語処理のためのリソース: 京都大学から適用されている自然言語処理のためのデータセット。毎日新聞のデータに対する各種言語情報である京都大学テキストコーパス、様々なWeb文書のリード文に対し各種言語情報のアノテーションを行った京都大学ウェブ文書リードコーパス等がある。
  • 青空文庫: 著作権の消滅した作品、また「自由に読んでもらってかまわない」とされたものをテキストとXHTML(一部HTML)形式に電子化した上で揃えている。GitHubからダウンロードが可能になりました。
  • 青空文庫形態素解析データ集: 青空文庫に収録されている作品に対し形態素解析を行ったデータ。CCライセンスで、商用利用も可能。対象の作品は2012/12時点で公開されており、著作権フラグのない11,176作品。
  • Kanjivg-radical: 漢字の部首、そして部首と漢字を対応付けたデータセット。「脳」という漢字は、「月」「⺍」「凶」のように幾つかのまとまりごとに細分化できます。このように意味ある要素に分解しデータセットにすることで、漢字を文字的に分解して扱ったり、逆に特定の部首/偏旁を持つ漢字を一括して検索することができます。詳しくは、説明記事をご覧ください。

 

チャットボットに使える日本語データセット

  • 日本語対訳データ: 日本語を対象とする機械翻訳システムの構築に利用できる言語資源のリストです。主に日英翻訳の資源を取り上げていますが、最後の方に多言語に対応したコーパスもいくつか取り上げています。リストに掲載されている資源は、対訳文からなるコーパスで、統計的機械翻訳システムの学習に利用できます。各項目は名前、リンク、文数、説明、研究・商用利用の可能性とおおよその金額などが入っています。主に10万文以上からなるコーパスを中心にリストアップしていますが、小さいものも一部載せています。
  • SNOW T15:やさしい日本語コーパス: 日英対訳コーパスの日本語を平易な日本語に書き換えたデータセット。元がパラレルコーパスであるため、英語との対応もとれる。

 

感情分析に使える日本語データセット

  • Twitter日本語評判分析データセット: Twitterの日本語評判分析データセットは、ツイートの評判情報をクラウドソーシングにより分析され、分析結果が公開されております。
  • SNOW D18 日本語感情表現辞書: 日本語の感情表現を集めたデータセットです。2000の表現が48の感情に分類されています。アノテーターは3名で、アノテーターごとの結果を利用できます。

 

その他、機械学習に使える日本語データセット

  • livedoor ニュースコーパス: トピックニュース、スポーツなどの九分野のニュース記事を含むコーパス。
  • 気象庁: 過去の気象データをCSV形式でダウンロードができます。
  • 日本古典籍くずし字データセット: 2019年11月現在、日本古典籍くずし字データセットの規模は、国文学研究資料館所蔵で日本古典籍データセットにて公開する古典籍、および国文学研究資料館の関係機関が公開する古典籍44点の画像データ6,151コマから切り取った、くずし字4,328文字種の字形データ1,086,326文字です。くずし字データセットは、手書き文字のデータセットですので、手書き文字認識(OCR)の研究開発にも利用できます。

 

機械学習モデルに必要なデータセットがまだみつからない場合は、Lionbridge AIにお問い合わせください。お客様の具体的な機械学習プロジェクトのニーズに合った学習データセットを300言語で提供いたします。

Lionbridge AIがお手伝いできることについて、詳しくはご連絡ください。

多言語データセットを入手
著者紹介
森川怜

東京生まれ。横浜、東京育ち、アメリカで留学経験あり。Lionbridgeでウェブ・SNSマーケティングを担当。人が好きで明るい性格。趣味は陸上、旅行、音楽を聴くこと。

メディア掲載結果

AI・機械学習の最新情報を配信中

Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。