【14個掲載】機械学習に使えるオランダ語のデータセットまとめ

2019年07月09日

多言語機械学習モデルが確実な結果を出すためには膨大な学習データが必要です。しかし、英語以外の言語の十分な関連データを見つけるのは困難な場合があります。特にオランダ語は、意外な借用語や非常に複雑な綴りなど独自の要素を多く含む難しい言語です。では、機械学習システムに学習させるためのオランダ語データセットはどこで探せばよいでしょうか。Lionbridgeチームはお客様のお役に立てるよう、オランダ語の公開データセットをまとめました。

 

オランダ語のテキストデータセット

オランダ語語彙プロジェクト: 14,000個以上のオランダ語の単語の語彙判定データが含まれるデータセット。

SUBTLEX-NL: 映画やテレビの字幕から収集した4400万語に基づいてオランダ語の単語の出現頻度をまとめたデータセット。

ルーヴェン・コンセプト・データベース: 129個の動物の名前と166個の人工物の名前に関するオランダ語規範。11のカテゴリーに分類されている。

オランダ語の習得年齢と具体性に関するデータ: オランダ語の単語30,000語に関する習得年齢と具体性の評価がエクセル形式で利用可能。

オランダ語の単語の知識&普及率:  約30万人を調査してまとめた50,000語以上のオランダ語の単語の普及率。

フローニンゲンTwitterコーパス: 約26億件のオランダ語ツイートと280億個のトークンを2014年に収集したTwitterコーパス

オランダ語の動作規範: 動作を表す線画124件とオランダ語の習得年齢、単語の出現頻度、その他の規範などのデータが含まれる。

デルファー・オランダ語新聞アーカイブ(1618-1699): 1618年から1699年までの8,500部以上のオランダ語の新聞から成るテキストデータセット。

81言語の感情語彙: オランダ語など81言語のポジティブおよびネガティブな感情語彙を含むデータセット。

 

オランダ語の対訳コーパス

児童言語データ交換システム(CHILDES): オランダ語など数ヶ国語の児童言語を文字起こしして注釈を付与したデータセット。

CELEX2: 英語、オランダ語、ドイツ語のASCIIバージョンの語彙データベースが含まれるコーパス。どの言語のデータセットにも正字法、音韻論、形態論、統語論(シンタックス)、単語の出現頻度に関する詳細な情報が含まれる。

ECI(欧州コーパスイニシアチブ)多言語テキスト: 欧州コーパスイニシアチブが公開した最初の多言語コーパス。オランダ語など27言語による46個のサブコーパスから成る。トータルで約9200万語(語彙)が含まれる。

 

オランダ語の音声データセット

単一話者によるオランダ語音声データセット:10言語で利用できる単一話者による音声データセット。LibriVox(リブリヴォックス)から収集した単一話者による音声録音ファイルとそれに対応するテキストから成る。

ウィキペディア音声コーパス: 英語、ドイツ語、オランダ語のウィキペディア記事の音声データをアライメントしたコーパス。オランダ語の部分は145人の話者が読み上げた3073件の記事が含まれる。224時間分の音声が含まれ、そのうち79時間分は単語レベルでアライメントが行われている。

 

Lionbridgeの多言語データサービス

必要なデータセットがまだ見つからない場合は、当社が作成いたします。当社の100万人の言語学者及びアノテーターチームは、効率的なプロジェクト管理手法や最新のテクノロジーを駆使して機械学習に利用できる、300言語で高品質な学習データを提供し、お客様の時間や費用を節約します。こちらからお問い合わせください。

 

この記事を気に入って頂いた方は、併せてこちらもご覧ください。

300ヶ国語で機械学習用のデータを入手

メディア掲載結果

AI・機械学習の最新情報を配信中

Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。