AIのバイアス問題はなぜ起きるのか?

2020年05月25日

AIのバイアス問題は、成長が期待される研究分野です。この分野の研究者らは、学習データに含まれるバイアスによってアルゴリズムがどのように影響を受けるかを研究しています。人間社会のデータを基に機械学習を行う場合、人間社会の無意識の偏見がアルゴリズムに影響を与えます。人間の偏見を除去しながら人間の論理と価値に従うモデルを構築するのはかなり難しいことですが、これは重要な課題でもあります。

機械学習アルゴリズムを構築するのは、ほとんどの場合、実世界における意思決定を促進するためであり、人間社会と無関係に利用するためではありません。教師データに無意識の偏見が含まれていれば、マシンはそれを学習し、アウトプットでそのバイアスが増幅されてしまいます。

例えば、法制度においては、機械学習モデルの予測に基づいて量刑を判断する裁判所も出てきていますが、これが公正な慣行かどうかはまだ不透明な状況です。人間が関与することなく、過去の判決の記録を基に機械学習を行うと、機械は新たな予測を行う際、学習した過去の差別パターンを適用します。そのため、不公平な結果を含む偏ったデータセットを利用して、機械学習を行うべきではありません。

上記の問題は、歴史的バイアスの一例ですが、この記事では、AIモデルにおける他の四種類のバイアスとその対処法についてご説明します。

 

サンプルバイアス

サンプルバイアスは、学習データセットが意図されている実世界での活用方法を正確に反映していない場合に生じます。

例えば、自動運転車用のコンピュータビジョンモデルを構築していて、昼夜を問わず道路を走行できる自動運転車を作りたいと考えているとしましょう。その場合、昼間に撮影された画像やビデオの学習データだけを使用すると、モデルにサンプルバイアスを与えていることになります。

サンプルバイアスを軽減するためには、あらゆる状況を代表する大量の学習データセットを構築する必要があります。

 

除外バイアス

学習データセットから一部の特性を除外すると、AIの除外バイアスが発生します。これはしばしば、人間が誤って、いくつかの特性を無関係であると判断してしまうことから生じます。直感に基づいて学習データから特性を削除する前に十分分析することが重要です。

機械学習モデル自体にバイアスがなければ、機械学習は、従業員の採用や大学入学者選抜などのプロセスで差別を防ぐために役立ちます。大学は標準テストの得点によって志望者を分類することが多いのですが、郵便番号を考慮に入れるということは最初、差別的取り扱いと感じられるかもしれません。しかし、地域によってテストの準備に利用可能なリソースの質に偏りがあり、それがテストの得点に影響する可能性があるので、郵便番号を除外すると逆にバイアスを助長してしまうのです。

 

観察者バイアス 

機械学習アルゴリズムは開発者の個人的な偏見を反映します。実験者バイアスとも呼ばれる観察者バイアスとは、人間は自分が見たいもの・見ることを期待しているものを見る傾向があることを意味します。これは、データサイエンティストが意識的にせよ無意識的にせよ、個人的な偏見を持って機械学習プロジェクトに携わる際に生じます。よくある個人的な偏見とは、人種差別、性差別、同性愛嫌悪、宗教的偏見、年齢差別、民族主義などです。

大部分の人は潜在的に個人的偏見を持っていますが、このことを意識することで観察者バイアスは軽減できます。そのため、機械学習モデルの構築を検討している方や機械学習チームは、AIのバイアスに関する十分なトレーニングを受ける必要があります。プロジェクトによっては、潜在的なバイアスに関して参加者をスクリーニングしたり、明確なガイドラインを設定することも効果的です。 

 

体系的な値の歪み

データ観測あるいはデータ測定に使用されるデバイスに問題がある場合、体系的な値の歪みが生じます。このタイプのバイアスはデータが一方向に歪む傾向があります。例えば、人の顔画像のデータセットを使用して顔認識AIに学習させるとしましょう。照明が不十分な部屋で全ての写真を撮影したため、データベースに偏りが生じれば、体系的な値の歪みが生じる可能性があります。

複数の測定デバイスを利用し、データに歪みが生じたときにそれを察知できる経験豊富なデータサイエンティストを測定に携わらせることで、体系的な値の歪みを防ぐことができます。

 

機械学習・AI研究開発者の方へ

モデルに入力する前に、学習データセットからあらゆるバイアスの痕跡を除去できたかを判断するのは難しい場合があります。そのような場合はぜひ当社にお任せください。10年にわたって、世界有数のIT企業に教師データを提供してきました。当社は、バイアスが含まれていないクリーンな機械学習用データセットを提供いたします。こちらからお気軽にお問い合わせください。

AI開発に肝心な学習データを提供いたします

メディア掲載結果

AI・機械学習の最新情報を配信中

Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。