日本語コーパス

機械学習向けの日本語コーパスとは?

高精度の機械学習や自然言語処理のアルゴリズム構築するためには、高品質な教師データが必要となります。教師データセットとして使える、テキストや音声の言語データを「コーパス」と呼びます。海外で開発された技術を国内で導入する際には、入力データとそれに対する、期待される出力データの両方を日本語化しなければなりません。

AIアルゴリズムは教師データに基づいて、精度の高い結果を生成する方法を学びます。このような学習の結果、後に新しい日本語のインプットが提示されたときに、アルゴリズムが正確な判断を下すことができるのです。基本的に、教師データの質を高め、量を増やすと、アルゴリズムのパフォーマンスの精度と速さが向上します。教師データは、感情分析、自然言語処理、チャットボットなど、様々な機械学習アルゴリズムに利用することができます。

当社の日本語コーパス選ばれる理由

日本語コーパスはまず、手動あるいは半自動で人間が作成しなければなりません。当社は、感情分析やチャットボットなどの機械学習アルゴリズムに適した、大規模で高品質の日本語コーパスを提供いたします。当社のプラットフォームでは、100万名の言語専門家が登録されていて、日本語コーパスを迅速に用意することができます。それぞれのプロジェクトに適合した優秀な人材を割り当て、プロセス全体を管理いたします。

規模

100万人の言語専門家が、お客様のプロジェクトに必要なデータ量にかかわらず、リクエストに柔軟に対応いたします。

品質

全てのプロジェクトを、認定コントリビューターが正確に仕上げます。

価格

必要なデータ量と言語に基づく、低価格でわかりやすい料金プラン。

活用事例

ユーザーの感情に適した対話システムを開発している株式会社ZAIZENに、チャットボット向けのコーパスを提供いたしました。1対話を1質問とそれに対する回答のセットと数え、5000対話を含むコーパスを作成しました。この教師データを利用し、ZAIZENは日常会話に対応できるパーソナルAIを構築しました。詳細はこちら。

お客様の声