Human in the loop(人間参加型)機械学習とは

2020年12月16日

Human in the loop(人間参加型)機械学習とは

uman in the loop(人間参加型)機械学習は、人間と機械知能を組み合わせて、効果的な機械学習アルゴリズムを生成します。教師あり学習と能動学習の組み合わせです。人間がアルゴリズム構築の学習段階とテスト段階の両方に関わり、絶え間ないフィードバックループができるため、回を重ねるごとにアルゴリズムの結果は向上していきます。

学習段階では、人間が元の学習データにラベル付けを施します。これには入力データと、それに対する、期待される出力も含まれます。次に、人間が機械に学習データを与えます。アルゴリズムに既知量を提供して将来の判断をサポートするこのプロセスは教師あり機械学習と呼ばれており、線形回帰、ロジスティック回帰、多項分類、サポートベクターマシンなどのアルゴリズムが含まれることもあります。アルゴリズムはこの「正解」データに基づき、ニューラルネットワークのようなテクノロジーをどのように適用すれば、学習して洗練された結果を出せるか、学習データの中に洞察やパターンや関係を見いだせるかを学びます。最終目標は、新たなデータを提示された際に、アルゴリズムが正しい決定を下せるようになることです。

テスト段階と評価段階における人間の役割は、簡単に言うと、機械が導き出した誤った結果を訂正することです。この段階では、人間はアルゴリズムが判断に確信を持てない結果を訂正することに集中します。確信度の低いユニットを人間が取り扱い、アルゴリズムへフィードバックするこのプロセスは、能動学習と呼ばれています。人間が注意を向ける必要があるもう一つのケースは、アルゴリズムが誤った結果に対して確信を持ち過ぎている場合です。テスト段階における目標は、より優れた判断ができるように機械をさらに学習させ、次に判断を下す際には、人間が介入しなくても正しい結果を出せるようにすることです。

 

human in the loop機械学習のプロセスを表すフローチャート

当社ではこのプロセスを俯瞰して見ているのですが、私はどうすれば開発者がAI・機械学習プロジェクトを最大の成功に導くように構築できるのかについて理解を深めてきました。当社は品質と精度を重視したクラウド型翻訳サービスとして始まりました。当社は100万人の熟練した多言語の翻訳者集団を形成し、AmazonやFacebookなどの大手顧客に幅広い言語サービスを提供しています。企業がAI投資を強化するためのサービスを提供することが多いため、当社は専門的な言語データセットを必要とする機械学習プロジェクトに携わる開発者のニーズにより適したサービスを提供できたらどうだろうかと考えました。

この結果、AI分野での成功のために最高品質の多言語データへの素早いアクセスを必要とする企業のためのプラットフォームである当社が生まれたのです。当社では、開発者は自然言語、会話、コミュニケーション、多言語プロジェクトに関する言語タスクに特化した膨大なクラウドプラットフォームが利用可能です。

 

Human in the loop機械学習にクラウドソーシングを活用

これは多くの外注化の決定と同じく、企業のコアコンピタンスの定義に左右される問題です。多くの企業は大規模な言語データセットの収集やキュレーションを管理する専門技術を有していません。それに加えて、会社独自の技術資源でプラットフォームを構築する機会費用は大きく、ROIが実現されません。代行サービスなら、開発チームは言語ベースデータを決定、提案、収集するプロセスを管理するために設計されたサービスのコスト時間効率からも利益を得ることができます。そして最終的には、よく訓練されたAI製品の開発時間の短縮という成果に行き着くのです。

 

Human in the loop機械学習のワークフロー

プロジェクトタイムラインに学習を組み込む際に考慮すべき四つの段階は以下の通りです。

  1. 検討・計画: 機械学習プロジェクトを成功させるのに重要なのは入念な検討と計画です。機械学習アプリケーションに必要なデータを入手するのにどのくらいの費用がかかるのかを開発チームが全く知らないというケースがしばしば見受けられます。できるだけ早いうちに、複数のサービス提供者からしっかりした見積もりを取るようにしましょう。また、データ取得段階はプロジェクトの初期に計画しましょう。大量のデータが必要な場合は、データ提供者がプロジェクトを適切に評価して詳細なタイムラインを提示できるように、スケジュールに十分な時間を組み入れるようにしましょう。
  2. 試験: ファーストステップは最初のデータ収集で、ここでデータ提供者と協力して必要なデータの範囲と仕様を決定することになります。これにより最初の試験に適した初期データセットが決まります。
  3. 較正: データセットが完璧に見えたとしても、学習中には予期せぬエラーに出くわす場合もあるでしょう。こういった障害のすべてを考慮するのは不可能ですから、データの品質を評価する明確な基準をまとめる必要があります。また、データをいくらか抽出して、結果が偏ったものとならないことを確認することも重要です。というのもプロジェクト開発の後半になって判明すれば費用が高くつくからです。ラベル付けのガイドラインが目的どおりに機能しているか、あるいは特定のデータ源から偏りが入り込んでいないかといった点を確認しておくべきです。
  4. 大規模収集: 較正が終わってすべてが整えば、データの量産が可能となります。この時点で、プロジェクトに必要な時間、労力、費用が著しく低下します。プロジェクトの規模によっては、さらに効率を上げようと投資を検討する場合もあるでしょう。これはAPIと直接統合して、手作業による間接費を削減することで実現可能です。

 

Human in the loop機械学習における言語学習データの必要性

以下はプロジェクトの成功を最大限にするための五つのヒントです。

  1. プロジェクトの範囲を定義することが重要です。データの収集、ラベル付け、クリーニングの費用はそれぞれ異なりますから、データ提供者からどのサービスを受ける必要があるのかを明確にしましょう。
  2. データタスクには特定のツール (自社所有のものだとしても) で作業する作業者が要求されるのか、それともデータ提供者に作業環境の判断を任せるのかを決めましょう。
  3. 作業者に必要となる具体的な指示を考えましょう。例えば、適用されないデータポイントがあった場合にそれを飛ばすのか、それとも「不適用」のマークを付けるのか、作業者はその処置について知っておく必要があります。独自のガイダンスが必要になるかもしれませんが、その場合はデータ提供者の専門家に指示を追加してもらいましょう。多くのエッジケースを見て来た専門家には具体的な問題を予測すること可能だからです。
  4. タイムライン要件についてデータ提供者と調整しましょう。立ち上げ段階で適切な作業者グループを特定することと思いますが、時にはデータ提供者がさらに作業者を加える必要があると判断するかもしれません。緊急の要請には注意して、プロジェクトの早いうちににタイムラインを定義しましょう。
  5. 価格を考慮することも大切です。データポイントを一定数にするのか、それとも予算を決まった範囲にとどめるのか、どちらが最善なのかを最初のうちに決めておきましょう。これによって交渉の際にデータの品質のみを重視することを避けられます。

以前は詳細で精度の高いデータ源をみつけることは困難でした。しかし、業界が成長し、多様化したおかげで、今ではこの問題に対してクラウド型ソリューションを提供するサービスの範囲が広がっています。安価で有効なデータ作成や注釈付けを提供している会社はいくつかあるので、プロジェクトにどれだけの影響を与えてくれるのか調べてみる価値はあります。

学習データはもはや障害ではなく、ROIを高める最高の機会です。適正な努力を少し実行すれば、モデルの性能を新たな高みに押し上げることのできる、価格競争力のあるデータを見つけることが可能なのです。

 

Human in the loop(人間参加型)機械学習の活用事例

Human in the loop機械学習は、自然言語処理やコンピュータビジョン文字起こしなどのあらゆるディープラーニングのAIプロジェクトで使用でき、特に以下の状況で役立ちます。

  • アルゴリズムの誤りの代償が極めて高い場合。例えば、医療診断や経過予想、治療における機械のアルゴリズムを使用する時です。
  • 現在入手可能なデータが不足している場合は、人間の方が機械よりも一般的に優れた判断を下せます。一定量の学習データとテストデータが利用できるようになると、機械が人間に取って代わり、より優れた判断を下すようになる。
  • 探しているデータが珍しいものである場合。例えば、特定の人物の顔写真を見つけるために画像認識を使用する場合です。このような状況においては、機械知能はその人物を表していない画像を確信を持って除外し、膨大な画像の中から対象を狭めることにより、多くの時間と経費を節減できる。その後、最終段階でタスクは人間へ引き渡され、人間は似たような顔の画像の中から正しいものを見つける。

 

ライオンブリッジのAI教師データサービス

当社は、AI向け教師データの作成やアノテーションを提供し、研究開発を支援しております。データサイエンティスト、言語学者、認定アノテーターなどを含む100万人のコントリビューターが登録されているので、大規模なプロジェクトも正確に、素早く納品できます。自社開発のAIプラットフォームは、テキストアノテーション、画像のバウンディングボックスや領域検出、音声データの文字起こしや音韻表記など、様々なデータやアノテーションタイプに対応できるため、多言語チャットボット、OCR、顔認証、自動運転など、幅広い研究開発向けの教師データをご用意できます。20年の経験のもと、お客様のご要望に応じて柔軟な対応が可能です。お問い合わせ・無料トライアルのご依頼はこちらから。

AI向け教師データの作成やアノテーションサービスを提供し、研究開発をサポートします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。