【25個掲載】機械翻訳向けの対訳コーパスまとめ

2020年07月03日

機械翻訳とは?「機械翻訳」と「自動翻訳」の違いは?

機械翻訳とは、コンピュータによって行われる自動翻訳のことをいいます。「機械翻訳」と「自動翻訳」はどちらも、機械によって自動的に行われる翻訳なので同じことだと思われるかもしれませんが、実際には意味が少々異なります。自動翻訳を行う際に、機械翻訳の技術が使用されると、といったほうが正確でしょう。また、「自動翻訳」は主に音声の自動翻訳を指す場合に使われます。

過去10年間で翻訳サービスは飛躍的に成長し、ハードウェアデバイスも翻訳サービスに含まれるようになりました。例えば、Microsoft翻訳は文章だけでなく音声や画像、道路標識まで翻訳します。 GoogleやFacebook翻訳も日常的に広く使用されています。AIのおかげで翻訳のスピードや精度はどんどん向上しています。

機械翻訳の種類には、ルールベース機械翻訳(rule based machine translation)、ニューラル機械翻訳(neural machine translation)、統計的機械翻訳 (statistical base machine translation) 、があります。

 

ルールベース機械翻訳

まず、ルールベース機械翻訳 (rule based machine translation) は、1970年代後半から一般的な仕組みとなり、登録済みのルールを適用することで原文を分析し、訳文を出力する機械翻訳の方法です。ここでいう「ルール」は文法です。

1954年、Georgetown experimentではルールベース機械翻訳によって60以上のロシアごの文章を翻訳することができましたが、6つのルールと250単語しか扱っていませんでした。また、1967年に設定されたSYSTRANは、米国防省や欧州委員会などにルールベースで機械翻訳された文章が提供されました。1980年代、PC技術の普及と性能向上とともに、ルールベース機械翻訳のソフトウェアがPC向けパッケージとして販売もさました。しかし、ルールベース機械翻訳は、結局は人手で設備されたルールに基づくものなので、精度が向上しないままとなってしまいました。

ルールベース翻訳の次に研究されたのが、1980年代後半から1990年代初期にExample based machine translation(用例に基づく機械翻訳)で、翻訳の事例を含む対訳コーパスを利用する手法でした。

 

ニューラル機械翻訳

ニューラル機械翻訳とは、ルールベース機械翻訳と統計的機械翻訳と比べ、比較的新しい技術です。2014年から登場し、2016年、Googleが発表したGoogle翻訳ではニューラル機械翻訳が利用されており、機械翻訳の品質が飛躍的に向上しました。

ニューラル機械翻訳には、単語列(シーケンス)から単語列を発生させる seq2seqというニューラルネットワークがベースとなっています。対訳コーパスを学習データとし、単一モデルのトレーニングを行うだけでEnd-to-endで翻訳モデルが構築できます。

また、モデル作成には、2018年に提案されたOpenAIのGPT、ELMo,GoogleのBERTなども活用されます。OpenAIのGPTは文章生成モデル、ELMoはLSTM双方向LSTM(Bidirectional LSTM)を用いて大量のコーパスを学習し、同じ単語でも文脈によって異なる埋め込み表現を獲得することができる手法、そしてBERTは自然言語処理向けの事前学習技術です。これらの自然言語処理技術は、Transformerモデルという、CNNやRNNを使わずに、アノテーション機構のみでベンチマークデータセットにおける質疑応答などのタスクにて高精度を達成している技術を活用しています。

ニューラル機械翻訳では、ネイティブ話者が話すような自然な出力し、TOEIC900点以上の人間と同等の英訳文も生成可能だと言われており、既にロボティクスや自動運転など、様々な分野において広く導入されています。また、言語技術は機械翻訳に限らず、音声合成音声認識文字認識など、言語に関わる各種認識処理などでも利用されます。

 

統計的機械翻訳

統計的機械翻訳 (statistical base machine translation) は、1980年代後半からIBMの研究グループが研究に取り組み、1990年以降主流となった仕組みで、対訳データで機械翻訳をトレーニングさせる方法です。単語の翻訳確率や並び替えの確率など、対訳コーパスから統計的な情報として学習していきます。本記事では、統計的機械翻訳のトレーニングに使える対訳コーパスを紹介していきます。

 

AIにおける自動翻訳は、翻訳サービスに新しい機会をもたらす

AIの進歩に伴って翻訳者へのニーズが無くなってしまったのではなく、新しい経済が生み出され、翻訳者はAIシステムのトレーニングのために至急大量に必要とされる多言語データへの需要に対応しています。

 

言語処理の深い分析に対するニーズ

当社は構造化された質の高いデータを必要とする様々なプロジェクトに取り組んでいます。そして、文化や民族に関する専門知識を必要とする広範なタスクを行うAIシステムの学習に貢献しています。 例えば、ある大手自動車メーカーが東京オリンピックに備えて、日本語が母語でない人の話す日本語をAIが理解できるように学習させるプロジェクトを行なった際、当社は音声データの記録をお手伝いしました。

簡単に言うと、このカーナビメーカーは、日本語が母語でない人の話す日本語を理解できるシステムを構築したいと考えたのです。その際、少し母語訛りのある話し言葉の日本語を記録したデータが何時間分も必要となりました。そして、それを準備できる人材を擁する数少ないプラットフォームの一つが「Lionbridge AI」でした。当社が収集したデータによって、AIは日本語の音声認識を深め、母語訛りのある人の日本語を理解できるようになりました。日本語を母語としない人の話す音声記録を数百件集めた音声データセットを構築することができました。

また、在籍翻訳者から異なる民族の眼球の動きに関するデータを集めて自閉症の研究に役立てたり、光学的文字認識 (OCR) エンジンに手書き文書の読み取りを学習させるため、日本語を母語とする人による手書きの日本語の文字のサンプルを収集したりしました。

 

翻訳デバイスについて

翻訳デバイスは素晴らしいものです。言語の障壁を打ち破り、大抵の場合、コミュニケーションを円滑にして人間同士の交流を促進します。しかし、言語は生き物であり、時代と共に常に新しい単語が生まれます。そのため、人間が継続的に翻訳デバイスに新しいインプットを追加して学習させなければ正確な翻訳ができないことを理解しておく必要があります。そのようなデバイスの開発に必要な人数は少なくなるかもしれませんが、機械翻訳で活用できるように新しい用語の意味や使い方を説明する若い世代の人材は常に必要となるでしょう。

「Lionbridge AI」の創業以来、今日まで当社は10億語を超える翻訳を処理してきました。AI開発者の方々に機械学習に使えるデータセットのまとめなどを始めとして様々なリソースを無料で提供しています。既存のファイルを当社のアカウント管理者に送信してAI学習データを注文していただくか、APIを利用して大量のデータにアクセスすることができます。

 

対訳コーパスとは?

多くのAIシステムと同様に、機械翻訳が良質な訳文を生み出すためには、大量の学習データが必要です。対訳コーパス(パラレルコーパスともいう)とは、二言語間の大量の訳文テキストを構造化したものです。機械翻訳アルゴリズムによる高品質な翻訳を実現するためには、通常、翻訳家によって生成されたデータを用いたトレーニングが行われます。

 

機械翻訳に使える対訳コーパス(パラレルコーパス)

それでは、機械翻訳の学習に使える訳文データは、どこで入手すればよいのでしょうか。そのような要望に答えるために、今回はウェブ上で探し出した究極の対訳コーパスをまとめてみました。

  1. 日本語対訳データ: 日本語を対象とする機械翻訳システムの構築に利用できる言語資源のリストです。主に日英翻訳の資源を取り上げていますが、最後の方に多言語に対応したコーパスもいくつか取り上げています。リストに掲載されている資源は、対訳文からなるコーパスで、統計的機械翻訳システムの学習に利用できます。各項目は名前、リンク、文数、説明、研究・商用利用の可能性とおおよその金額などが入っています。主に10万文以上からなるコーパスを中心にリストアップしていますが、小さいものも一部載せています。
  2. 第36回カナダ議会議事録対訳集: 英語とフランス語の二言語による対訳コーパス。
  3. 欧州議会議事録対訳コーパス 1996〜2011: 欧州の21カ国語の訳文から成る対訳コーパス。
  4. グローバル・ボイス対訳コーパス: ニュースポータルサイト、グローバル・ボイスの記事の一部を57カ国語で提供。
  5. RATS言語識別: アラビア語、ペルシャ語(ファルシ語)、ダーリ語、パシュトー語、ウルドゥー語の電話による会話を約5,400時間分集めたもの。 音声セグメントのアノテーション付き。
  6. 中国語・フランス語テキスト: 中国のニュース放送からおよそ30,000字分の中国語の文章を収集し、フランス語の訳文と共に提供。
  7. Arabiziテキスト: 英語とArabizi (チャットで用いられるアラビア語の表記方法) を混合したテキストの中から自動的にコードスイッチングを検出するための学習データ。522件のツイートを含む。
  8. 英語・ベトナム語テキスト: 英語の文章とベトナム語訳文を500,000対含むコーパス。
  9. 英語・ペルシャ語テキスト: 英語とペルシャ語の訳文を 200,000対以上含む。
  10. 中国語・英語の電子メール: 電子メールから中国語15,000字分 (約10,000語相当) を収集し、英語の参考訳を付けたもの。
  11. フランス語・アラビア語新聞: 10,000語に相当するアラビア語の文章を収集し、それに対応する二種類のフランス語の参考訳を付けたもの。原文は 2013年5月に『ル・モンド・ディプロマティーク』のアラビア語版から収集した記事。
  12. パシュトー語・フランス語テキスト: 106時間分のパシュトー語の音声記録をフランス語に翻訳したもの。
  13. ドイツ語・英語テキスト: 単語アライメントのために手動翻訳を行なったドイツ語・英語の対訳コーパス。
  14. トルコ語・英語テキスト: WMT2018のためのトルコ語・英語の対訳コーパス。
  15. 国連翻訳テキスト: 国連の文書を六カ国語で提供。
  16. XhosaNavy: 英語とコサ語による南アフリカ海軍の対訳コーパス。
  17. ウィキペディア: ウィキペディアから抽出した文章を20カ国語で提供する対訳コーパス。
  18. 英語・クロアチア語: 英語とクロアチア語の訳文から成る。
  19. カタルーニャ語・スペイン語: カタルーニャ政府の官報からの文書をカタルーニャ語とスペイン語で提供。
  20. 英語・日本語: ウィキペディアの京都に関する記事を手動翻訳した約500,000対の英語と日本語の文章を含む。
  21. 中欧の電話の会話: チェコ語とスロバキア語の電話による会話、約44時間分をアノテーション付きで提供。
  22. 南アジアの電話の会話: ベンガル語、ヒンディー語、パンジャブ語、タミル語、ウルドゥー語による電話の会話を約118時間分、アノテーション付きで提供。
  23. トルコ語の電話の会話: トルコ語の電話の会話を約18時間分含む。
  24. 中国語ツリーバンク: 中国のニュースワイヤー、政府文書、雑誌の記事、様々なニュース放送から約150万語の文章が収集されている。各文に統語構造アノテーションが付与されている 。
  25. アラビア語ニュース放送トランスクリプト: 2008年と2009年に収集されたアラビア語のニュース放送の約37時間分のトランスクリプト。

 

お探しの対訳コーパスが見つからない場合

他のデータセットにご興味があれば、 機械学習に使えるオープンデータセット機械学習に使えるソーシャルメディアのデータセットのまとめ記事もご覧ください。

機械翻訳の改善を目指す企業様向けに、当社のグループ会社Gengoは300言語から大量の翻訳データを提供いたします。当社に登録している100万人の言語学者及びコントリビューターが、効果的な機械翻訳システムの構築や学習に必要な対訳コーパスを提供します。

300言語で対訳コーパスを提供しております。

メディア掲載結果

AI・機械学習の最新情報を配信中

Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。