【20個掲載】機械学習に使えるドイツ語コーパスまとめ

2019年05月23日

多言語の機械学習アルゴリズムを構築する際に最も困難なことの一つはおそらく、十分な関連データあるいは専門データを収集することでしょう。そこで、お客様のお役に立てるよう、 感情分析から音声データセットまで様々なAI活用をカバーするドイツ語データセットをまとめました。この記事がお役立てましたら、ぜひ他の機械学習に使えるデータセットまとめ記事もご覧ください。

 

ドイツ語のテキストデータセット

大規模なドイツ語コーパス: ドイツ語の新聞および法律文書から1220万件の文章を収集。全てのコンテンツは見出し語化され、TreeTaggerで品詞をタグ付けされている。

ドイツ語の文章300万件: 2015年の新聞から収集した300万件のドイツ語の文章。文章以外およびドイツ語テキスト以外は取り除かれ、単語の出現頻度に関する情報も含まれる。

ドイツ語レシピデータセット: chefkoch.deから収集した12,190件のドイツ語のレシピ。 それぞれ、材料、作り方、作成日などの情報が含まれる。

ドイツ語政治演説コーパス: ドイツの大統領、外務省、官庁、連邦議会議長など有名なドイツの代表者が21世紀に行なった政治演説を集めたもの。

NEGRA: ドイツ語の新聞のテキストに意味的アノテーションを付けたコーパス。全ての大学や非営利団体はこのデータセットを無料でリクエストできるが、完全なデータセットを入手するためには、書式に署名して送る必要がある。

Digitales Woerterbuch der deutschen Sprache (dlexDB): ドイツ語の心理学的および言語学的研究に利用できる語彙データベース。一億個以上のドイツ語単語トークンが含まれる。

ドイツ語ニュース記事一万件を収録したデータセット: ドイツ語で初めてのトピック分類データセット。10,273件のドイツ語ニュース記事が九つのクラスに分類されている。

SUBTLEX-DE: 映画やテレビの字幕から収集した2540万個の単語の出現頻度。

 

ドイツ語の 対訳コーパス

意味役割に関するクロスリンガル・プロジェクション: EUROPARL英独対訳コーパスから収集した1,000件の注釈付き文章のデータセット。

英独テキスト: 単語アライメント用に手動で翻訳を行なった英独対訳コーパス。

ベトナム語-ドイツ語データセット: ディープラーニングや機械学習、辞書アプリでモデル変換言語用に利用されるベトナム語-ドイツ語辞書。

 

ドイツ語の感情分析データセット

SentimentWortschatz: 感情によって分類されたドイツ語の単語 3,468語を含むドイツ語の感情分析ツールキット。肯定極性表現および否定極性表現、品詞のタグ付け、語形変化(該当する場合)を含む。

ポツダムTwitter感情コーパス: 意見における関連性をきめ細かく手動で注釈付けした7,992件のドイツ語のツイート。 意見の幅、それぞれの情報源および対象のほか、文脈上、否定や修飾語を伴う可能性がある用語など感情に関する要素を含むデータセット。

ドイツ語感情辞典: このリポジトリでは、七つの基本的な感情に関する感情分析用のドイツ語辞典が利用可能。

SCARE: Google Playストアアプリのドイツ語のレビューにきめ細かく注釈付けした感情コーパス。レビューごとに、言及されたアプリの要素(アプリのデザインや使いやすさなど)、主観的な表現、極性が注釈付けされている。

意見に関する複合語データセット: 意見における役割に関して注釈付けされた約3,000語のドイツ語複合語のデータセット。

ANGSTドイツ語の感情評価: 約1,000語のドイツ語の単語に感情価、覚醒度、支配度の評価をタグ付けしたもの。

 

ドイツ語の音声データ

ドイツ語用公開音声データコーパス: the LT and the Teleccoperationグループの話者数人を利用して行なった音声録音のデータセット。ドイツ語ウィキペディアや欧州議会の議定書、個別のコマンドからの文章を約180人の話者が読み上げた音声が約35時間分含まれる。

ウィキペディア音声コーパス: 英語、ドイツ語、オランダ語のウィキペディア記事の音声ファイルをアライメントしたデータセット。数百時間分の音声が含まれ、注釈は元のHTMLにマッピング可能。

CSS10ドイツ語: LibriVox(リブリヴォックス)のオーディオブックから収集した短い音声クリップとそれに対応するテキストで構成された単一話者によるドイツ語音声データセット。

 

Lionbridgeが提供する多言語コーパス

必要なドイツ語コーパスは見つからないばあい、当社が作成いたします。お客様の機械学習に適切な多言語コーパスを300言語で提供しております。100万人の言語学者が、お客様の機械学習アルゴリズムに役立つグラウンドトゥルースを準備いたします。最適な多言語コーパスを入手するためにまず、お気軽にお問い合わせください。

機械学習用の多言語データを入手

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。