自動音声認識とは?

2020年03月24日

自動音声認識とは?

自動音声認識とは、話し言葉をテキストに変換する技術です。SiriやAlexaなどの音声アシスタントを使用したことがあれば、自動音声認識システムを体験したことがあると言えるでしょう。SNSアプリや検索エンジン、車載システムなどに実装されています。これらシステムのプロセスは少しずつ異なっていますが、最初のステップは全てに共通しています。音声データを取り込み、機械が理解できるテキストに変換することです。

では、自動音声認識システムはどのように機能するのでしょうか。また、音声理解をどのように学習するのでしょうか。この記事では、自動音声認識について簡単にご紹介します。音声をテキストに変換するプロセスや自動音声認識システムの構築方法について説明してから、自動音声認識システムの活用が見込まれる分野について触れていきます。

 

自動音声認識システムの仕組み

自動音声認識とは、音声データを取り込んで、テキストデータを出力することです。しかし、入力から出力に到達するためには、音声データを機械が理解できる形に変換する必要があります。これは音響モデルと言語モデルを介して行われ、この二つのプロセスは次のようになっています。音響モデルは音声信号と音素単位を関連づけ、言語モデルは音を単語や単語列に一致させます。これら二つのシステムを利用して、自動音声認識システムは音声入力に関する確率を確認し、どのような単語や文章が含まれているかを予測します。そして、これらの予測の中から、システムが最も信頼性の高い予測を選択します。
※言語モデルが、他の要因に基づいて、より可能性が高いとみなされる特定の予測を優先させることもあります。

そこで、あるフレーズを自動音声認識システムに通すと、次のようなことが行われます。

  • 音声データを取り込む: 「Hey Siri、今何時?」
  • 音声データを音響モデルに通して音素に分割する
  • データを言語モデルに通す
  • テキストデータを出力する: 「Hey Siri、今何時?」

ただし、自動音声認識システムが音声ユーザーインターフェイスの一部になっている場合でも、そこで活用されている機械学習モデルは自動音声認識モデルだけではないことは心に留めておいてください。多くの場合、自動音声認識システムが与えられた役割を果たすためには、自然言語処理や音声合成システムを組み合わせる必要があります。

自動音声認識の仕組みがわかったところで、次は、構築するために何が必要なのかを見ていきましょう。

 

自動音声認識の構築

優れた自動音声認識システムには柔軟性が期待されます。様々な種類の音声入力(音声サンプル)を理解して、正確なテキスト出力を生成し、それに応じて反応できるようにする必要があります。

これを実現するために、自動音声認識システムはアノテーションを施した音声サンプルとトランスクリプション(文字起こし)データを必要とします。実際に考慮すべきことはたくさんあるのですが(例えば、アノテーションは非常に重要なプロセスでありながら、しばしば見落とされがちです)、ここでは単純化してご説明しましょう。

自動音声認識システムには膨大な音声データが必要です。話し言葉は複雑なものだからです。同じことを言う場合でも異なる言い方が数多くあり、文の意味は単語の位置や強調によって変わる可能性があります。さらに、世界には様々な言語があり、これらの言語の中でも場所や訛りなどによって発音や単語の選択が異なります。

そして、話し言葉は年齢や性別によっても異なることをお忘れなく。これらを念頭において、自動音声認識システムに多くの音声サンプルを提供するほど、新しい音声入力に対する識別・分類能力が向上します。さらに、様々な種類の音声や環境からサンプルを収集するほど、環境内の音声識別能力が強化されます。適切な微調整とメンテナンスを行えば、自動音声認識システムは使用するにつれ、改良されていきます。

このように、基本的には、データが多いほどモデルの性能が向上します。小規模なデータセットを最適化するための研究が行われているのも事実ですが、現在のところ、うまく機能するためには大部分のモデルが大量のデータを必要とします。

公開データセットやデータ収集代行サービスのおかげで音声データ収集は以前より簡単になりつつあります。そして、これによって、技術の進歩がさらに加速化しています。そこで、最後に、自動音声認識の活用が見込まれる分野について簡単に見てみましょう。 

 

自動音声認識技術の将来

自動音声認識技術はすでに私たちの社会に組み込まれています。音声アシスタントや車載システム、ホームオートメーションは全て、日常生活における利便性の向上に役立っています。これらのサービスを利用する人が増えるに従ってテクノロジーが進化するので、能力範囲もさらに拡大するでしょう。上記の例のほか、自動音声認識は様々な興味深い分野や業界で活用されています。

  • コミュニケーション: 世界中に携帯電話が普及したことで、読み書き能力の水準が低いコミュニティでも自動音声認識システムによってメッセージングやオンライン検索、テキストベースのサービスが利用できます。
  • アクセシビリティの向上: ハンズフリーで利用できるアプリや、テレビ、映画、会議向け自動キャプション機能などによって、自動音声認識は障害者や怪我をした人などのアクセシビリティ向上に役立ちます。
  • 軍事技術: 米国、フランス、イギリスでは、軍事プログラムが戦闘機用の自動音声認識システムのテスト・評価を行っています。これには、無線周波数の設定、自動操縦システムのコマンド(指示)などのタスクが含まれます。

 

LionbridgeのAI学習データサービスについて

AI向け音声データの作成やアノテーションのサービスを提供し、研究開発を支援しています。世界の各タイムゾーンを渡る、100万人のコントリビューターが登録されており、大規模なAIプロジェクトも素早く仕上げることができます。お問い合わせ・見積もりはこちらから。

 

本記事を気に入って頂けた方は、以下の記事もぜひご覧ください。

音声コーパスをお探しでしたら、お気軽にお問い合わせください。 無料でお見積もりいたします。

メディア掲載結果

AI・機械学習の最新情報を配信中

Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。