音声情報処理: 話者識別と音声生成を解説

2020年07月23日

音声情報処理(音声処理)とは

音声情報処理(音声処理)とは、音声信号で音声解析を行い、特徴パラメータを取り出し、それに基づいて自動音声認識、話者認識、音声生成などを行うことをいいます。今回は、音声情報処理の主な分野の2つ、話者認識と音声生成について紹介していきます。

 

話者認識

話者認識とは、人間の声から個人を認識する、音声処理の一分野です。音声データから特徴を抽出し、モデル化し、それを使って個人の声認証を行います。隠れマルコフモデル、パターンマッチング、ニューラルネットワーク、決定木など、様々な技術が用いられます。話者認識は更に、話者識別と話者照合の2種類に分類することができます。

 

話者識別

話者識別とは、誰だか分からない声を誰のものか、識別するタスクをいいます。話者識別も更に、2種類に分類することができます。事前に話者の声を登録せず、複数人の会話が行わている状況で、各人がどの発信をしたのかを識別する方法と、事前に登録された音声データに基づき、話者識別を行う方法の2つがあります。

 

話者照合

話者照合(話者認証)とは、ある人間が本人の主張している通りの個人であるかどうかを、承認するタスクです。セキュリティを確保したアクセスを必要とする場合に多く利用されます。あらゆる音声データと照合する必要がある話者識別と違い、話者照合では、話者の声を1つのテンプレートと照合すれば達成することができます。

 

音声生成

音声生成とは、テキストデータを音声に変換し、人間の音声を人工的に構築することであり、音声情報処理の一分野です。音声合成、テキスト音声合成、text-to-speech、speech synthesis ともいいます。応用法は豊富で、コールセンターの自動応答、ATMや複合機などの電子機器、工場などでの校内放送、防災無線、公共交通機関での車内放送や案内放送、カーナビゲーション、音声アシスタントなどのアプリケーションなどが挙げられます。

音声生成の課題としては、テキストの読み方の正しい推定や、品質評価が挙げられます。まず、音声生成では、入力されたテキストの読み方を正しく推定することが必要です。例えば、日本語のテキストデータでは漢字の音読み・訓読みの区別、同型異音語の区別、発音、人名や地名の読み方の推定などを正しく行うことには困難が伴います。また、生成された音声データの自然性を客観的に評価するのも困難である場合が多くみられます。

 

ライオンブリッジの音声処理サービスについて

当社はAI向け教師データサービスを提供し、研究開発を支援しております。世界の各タイムゾーンを渡る、100万人のコントリビューターが登録されており、大規模なAIプロジェクトも素早く仕上げることができます。チャットボット向け会話コーパス音声文字起こし、音声データの作成やアノテーション、音声合成の品質評価などのサービスを提供しておりますので、ぜひご利用ください。無料トライアルやご相談は、こちらからお気軽にお問い合わせください。

当社開発の音声文字起こしツール
音声コーパスをお探しでしたら、お気軽にお問い合わせください。 無料でお見積もりいたします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。