Hugging FaceのNLP研究者に聞いた、会話AIの作り方

2020年12月02日

トーマス・ウルフ氏は、会話AIをいち早く開発することを目指すチャットボットスタートアップ「Hugging Face」のCheif Science Officer(最高科学責任者)です。ピエール・マリー・キュリー大学で統計学・量子物理学の博士号、パリ・ソルボンヌ大学で法律学位を取得したトーマスは現在、自然言語処理の研究に学際的なアプローチを取り入れています。Hugging Face以外でも、ブログMediumTwitterで機械学習に関する様々な議論に参加しています。

今回の取材では、会話AIの構築に伴う独自の課題についてウルフ氏に詳しくお話を伺いました。また、自然言語処理における最近の進展についても触れています。機械学習の専門家を取材した関連記事に興味がある方は、こちらをご覧ください

 

自然言語処理に取り組むようになったきっかけは何ですか?

ウルフ氏: 12歳の頃からプログラミングをやっていますが、実際にキャリアをスタートしたのはコンピュータサイエンスではなく物理学の分野でした。卒業後にバークレーでレーザー・プラズマ相互作用に関する研究を行った後、パリで統計学・量子物理学の博士課程に進学しました。その後、方向転換して、パリ・ソルボンヌ大学で法律の学位を取得しました。欧州特許弁理士として6年間働き、スタートアップや大企業のポートフォリオ構築や知的財産の保護を支援しました。2015〜2016年には多くのディープラーニング関連のスタートアップ企業にアドバイスを提供していたので、それがAI分野に入るきっかけとなりました。そして、AIで利用されている数学の大部分が統計物理学に由来していることにすぐ気づくと、機械学習に夢中になりました。

自然言語処理に初めて出会ったのはおそらく10代の頃だと思うのですが、このトピックに完全にのめり込んだのはこの時からです。私の学習方法は、古典的なものからスタートして最近の出版物まで、とにかくたくさんの教科書を読むことです。計量言語学や機械学習でもこの手法を使いました。現代の視点から計量言語学の古い研究について考えることは特に役立ちました。例えば、ニューラルネットワークでH.P.グライスの研究を再実装した経験を通して多くのことを学びました。そして、この後すぐに、友人の一人からニューヨークで設立したばかりのスタートアップに参加するよう誘われたのです。現在は、ここで再び科学に携わり、非常に楽しんでいます。

 

Hugging Faceでの研究を通じて解決しようとしているのは主にどのような課題ですか?

私たちは言語生成という観点から自然言語生成と自然言語理解に取り組んでいます。オープンドメインの会話や人間との長期にわたる関係に力を入れています。あたかも会話ができるペットの犬やねこのような製品にしたいのです。

 

ソーシャルメッセージングには、俗語や絵文字など急速に進化する独特の言語機能がたくさん含まれています。機械学習にそれらをどのように組み入れたのですか?また、それに合わせてチャットボットを構築するアプローチを変更しましたか? 

それは、私がHugging Faceに入った時、取り組まなければならなかった最初の応用問題の一つです。また、Hugging Faceのデータセットとユーザー基盤を表す特徴の一つでもあります。Hugging Faceのユーザーの大部分は、絵文字をコミュニケーションの主な手段として使用するミレニアル世代です。彼らは、俗語や新しい言葉遣いなどによって常に英語を改革しています。そのため、俗語辞書であるUrban Dictionaryなどのようなリソースは私たちにとって不可欠なのです。ルールベースのスペル修正や頭字語の展開から、ELMoなどの文字レベルのニューラルネットワークモデルに至るまで、そしてもちろん、Hugging Face独自のデータセットでモデルに学習させるなど、様々なアプローチを融合させてこの問題に取り組んでいます。

 

チャットボットに学習させるためには、かなり多種多様な興味深いデータが必要になるのではないでしょうか。チャットボットの学習に役立つ理想的なデータセットとはどのようなものだとお考えになりますか?

私たちのモデルにとって最も理想的なデータセットは私たちが独自に作成しているデータセットです。必要に応じてRedditやクラウドソーシングサービスなどの外部データも利用しますが、現在、Hugging Faceのデータベースには4億件を超えるメッセージが含まれているので、独自のデータセットに基づいてモデルに学習させたり、ファインチューニングしたりすることが可能です。ご質問に対する答えを避けているように聞こえるかもしれませんが、Hugging Faceのチャットボットに固有のニーズがあるということは、私たちが他に存在しないデータセットを持っていることを意味します。

Hugging FaceのAIは人間の知能を模倣しているわけではないので、人間同士の会話を再現しようとはしていません。そうではなく、人間とは別の種類の知能になるように一から設計されているのです。

人間の行動を再現しなくてもよいので、過去数年以上にわたるAIや機械学習のすばらしい進歩を全て利用し、人間との楽しく魅力的な交流を実現するためにあらゆる方面を探索することができます。ちなみに、人間の知能を模倣せずに人間と楽しく魅力的な交流を行うことはできないのではないかと考える人は、おそらくペットを飼ったことがないのだろうと思います。

 

アプリ開発中に遭遇した予期せぬ面白い課題はありますか?

それは数え切れないほどたくさんあります。最も驚いたことの一つは、ユーザーがHugging FaceのAIに対して非常に親切に対応してくれる上、AIが学習するのを助けようとしてくれることです。一方、予期せぬ課題の一つは、 AIの応対が良くない時に、ユーザーとの交流が盛んに行われたことを示す良い指標が出る場合があることです。AIが適切な行動を学習できるよう、ユーザーが正しい対応方法を教えようとしてくれるからです。

 

来年にかけて注目すべき興味深い研究開発や業界の活用事例はありますか?

自然言語処理分野の転移学習は現在、大変革を遂げつつあり、研究方法やモデルの生産方法に関する全てのことを変えています。これは、データセット作成などの領域で見られ、SWAGデータセットは正式にリリースされる前に転移学習のアプローチが利用されています。事前学習を行った後、より大きなモデルを微調整するなど、アルゴリズムの利用や開発方法にも活用されています。

 

自然言語処理の研究に取り組む方へ何かアドバイスはありますか?

現在のAI革命における最もポジティブな点は、官民ともに研究所において、研究を発表し、コードベースをオープンソース化しようという強い機運があることです。これは、スタートアップや研究者一人一人にとってゲームチェンジャーになります。現在、自然言語処理アルゴリズムを構築しようとしているなら、一から自力でやろうとしないでください。興味ある分野のオープンソースの優れたアルゴリズムを利用してスタートし、改良したアルゴリズムやアイデアをオープンソース化してコミュニティに還元してください。

結局のところ、重要なのは実行です。優れた製品を構築することはユーザー基盤を拡大するための鍵であり、アルゴリズムをオープンソース化することによってコミュニティ全体の成長を支援することができます。

 

LionbridgeのAI学習データサービスについて

当社は、AI向け教師データの作成やアノテーションを提供し、研究開発を支援しております。データサイエンティスト、言語学者、認定アノテーターなどを含む100万人のコントリビューターが登録されているので、大規模なプロジェクトも正確に、素早く納品できます。自社開発のAIプラットフォームは、テキストアノテーション、画像のバウンディングボックスや領域検出、音声データの文字起こしや音韻表記など、様々なデータやアノテーションタイプに対応できるため、多言語チャットボット、OCR、顔認証、自動運転など、幅広い研究開発向けの教師データをご用意できます。20年の実績と経験のもと、お客様のご要望に応じて柔軟な対応が可能です。ご相談・無料トライアルはこちらから。

 

※ 本記事は2019年1月11日、弊社英語ブログに掲載された取材記事に基づいたものです。

AI向け教師データを提供し、研究開発をサポートいたします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。