実は古くて新しい?AI音声合成の技術開発と活用事例とは

2020年04月20日

音声アシスタントやAIスピーカーの声は、どんな仕組みで動いているかご存知ですか。これらは「音声合成」と呼ばれており、実は昔から研究されている技術です。今回は音声合成の作り方、活用される場面、そして人間に近い音声による課題をご紹介しましょう。

 

音声合成とは?

「音声合成」は人間の声を人工的に作り出すことで、文章の読み上げやナレーションなどの目的で使われています。iPhoneの音声アシスタントやAIスピーカーから流れてくる音声も、音声合成によって作られたものです。また、コールセンターの自動音声、電子機器の案内、交通機関の案内放送などでも、音声合成は活躍しています。最新の事例では、高輪ゲートウェイ駅の案内キャラクターも、合成音声やり取りできるようになりました。また、人間に近付いたのは音声だけではなく、「今日の予定は?」「明日の天気は?」などの質問に応えてくれます。「人の話を聞いて音声合成で回答する」という動作も、近年の技術進化によって実現しました。実は音声合成はずっと昔から研究されている分野であり、ここに至るまで長い時間がかかっているのです。

音声合成を活用するスマートフォン
appllioより引用

合成音声の作り方

現代のコンピュータを使った音声合成は1968年頃から本格的な開発が進められており、基本的な仕組みは録音された音声を元に学習したモデルから、人工的に音声を合成する仕組みとなります。

滑らかな音声は難しかったものの、1999年に東京工業大学で発表された「隠れマルコフモデル音声合成」や、2013年にGoogleから発表された「ニューラルネットワーク音声合成」などにより、様々な機械で自然な音声を合成できるようになりました。また、平坦で抑揚のない話し方ではなく、起伏を付けて感情を込めた話し方も再現可能になっています。

2016年にDeepMindから発表された「WaveNet」では、より人間らしい音声合成を実現しており、質問に対して回答する仕組みも実現されました。人間との違いが分からないレベルの音声合成も登場しており、「Google Duplex」による美容院への予約電話デモが話題になりました。相槌を入れながら応対した相手が音声合成だと気付かないほど自然な話し方で、時間や名前を伝えて予約したのです。対応言語は英語のみで簡単な受け答えしかできませんが、近い将来は人間の代わりに合成音声が様々な作業をこなしてくれるかもしれません。

一方で音声アシスタントやAIスピーカーの音声合成の開発には、特定の話者による大量のデータが必要になってきます。同じ声で様々な受け答えをするためには同じ話者による大量のデータ必要ですが、疲労などを考慮すると1回の収録で取得できるデータが限られるため、時間や費用がかかります。

一方でより少ないデータで幅広い音声を合成する技術も研究されており、今後はより身近に音声合成を利用できるようになるでしょう。例えばバーチャルキャラクターの動画配信では演者の吹き替えによって行われていますが、将来は音声合成によって置き換えられるかもしれません。

 

合成音声の新たな課題とは?

技術の進化で人間に近い合成音声が作れるようになると、今まででは考えられない課題が出てきます。

「AI美空ひばり」をご存知でしょうか。昭和を代表する歌手であり故・美空ひばりさんの歌声を合成して、30年ぶりの新曲が発表されたことが話題を呼びました。一方で「故人への冒涜ではないか」「他人によって作られた偽物」といった批判もあります。美空ひばりさんの新曲を作詞作曲して本人の声を再現して歌っても、それが「新曲」と呼べるかどうかはわかりません。

また、歌声だけでなくコンピュータグラフィックスなどによる映像もあれば、本人を再現することも可能です。もちろん法律なども整備されていないので、倫理や権利などの問題が懸念されるでしょう。これは美空ひばりさんのような著名人だけでなく、亡くなった家族や架空のキャラクターなどにも通じる点です。

また、言語による違いも課題となります。前述のように音声合成には大量の音声データが必要ですが、様々な国で使われる英語や、話者が多い中国語であればより容易に集められます。対して日本語は日本のみで使われるため収集できるデータがに限界があり、同音異義語などを含む複雑な言語なので難易度も高くなります。各種サービスや製品に使われる音声機能は英語や中国語が優先されて、日本語が遅れたり対応しないなどの問題も出てくるでしょう。これは技術的な課題だけでなく、必要なコストに対する利益が見込めないなどビジネス上の事情もあります。

ここ数年ですっかり身近なものになった合成音声の進化ですが、様々な影響を与える分野であるとおわかりいただけるでしょう。普段の生活を便利にしてくれる一方で、新たな課題を引き起こす要因になるかもしれません。様々な研究が進む分野なので、今後の動向にも耳を傾けたいですね。

 

※ 本記事は、マスク・ド・アナライズ様による寄稿記事です。

著者プロフィール: AIベンチャーで働きながら、TwitterによるAIやデータサイエンスの情報発信で注目を集める。現場目線による辛辣かつ鋭い語り口は、業界内でも有名になり「イキリデータサイエンティスト」と呼ばれるほど。AIベンチャー退職後は独立して、企業におけるAIの導入活用支援、人材育成、イベント登壇、執筆などの活動を行っている。著書「これからのデータサイエンスビジネス」は好評発売中!マスク・ド・アナライズ様の取材記事: マスク・ド・アナライズさんに日本のAI事情について取材しました!

 

LionbridgeのAI学習データサービスについて

AI向け教師データの作成やアノテーションのサービスを提供し、研究開発を支援しています。300言語のネイティブ話者である、100万人のコントリビューターが登録されており、大規模なAIプロジェクトも素早く仕上げることができます。お問い合わせ・見積もりはこちらから。

音声コーパスをお探しでしたら、お気軽にお問い合わせください。 無料でお見積もりいたします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。