コンピュータビジョンとは?

2020年06月11日

コンピュータビジョンとは?

人間や動物は周囲の世界を見るために自分の目を使います。コンピュータビジョンは、同様のスキルを機械に与えることを目的とする研究分野です。目標は画像収集、画像処理、画像解析など、人間の視覚システムが実行できるタスクを自動化することです。

例えば、コンピュータサイエンスでは色は16進数で表され、機械はこれを用いて、どのピクセルの組み合わせがどの色に対応するのかを理解するようにプログラムされています。一方、人間には様々な色合いを区別するための共通の視覚システムが生来備わっています。

こちらのまとめ記事には、ビデオシーケンス、複数のカメラを使って様々な角度から撮影した画像、医療スキャナーからの多次元データなど、コンピュータビジョンで使える画像データが含まれています。

 

コンピュータビジョンの仕組み

視覚情報を処理するAIシステムは、コンピュータビジョンを基盤としています。では、データサイエンティストがコンピュータに「見る」ことを教える際の複雑なプロセスを分解して見ていきましょう。

 

コンピュータビジョンにおけるバウンディングボックス

コンピュータビジョンにおいて、物体検出に最も一般的な方法は、バウンディングボックスを利用することです。バウンディングボックスとは、画像や形、テキスト上に描かれた仮想のボックスのことで、X座標とY座標によって定義されます。ボックス内のコンテンツは、コンピュータビジョンモデルが物体の種類を特定できるように、アノテーターによってラベル付けされています。アノテーターは、移動、変換、回転、拡大縮小などの操作を行って、各画像が正確にバウンディングボックスで囲まれるようにします。

コンピュータビジョン向けバウンディングボックス付きの道の画像

コンピュータビジョンに利用されるニューラルネットワーク

ニューラルネットワークはニューラルネットとも呼ばれ、人間の脳と同様に機能するように設計されたコンピュータシステムです。データサイエンティストは、周囲の他のアルゴリズムの結果に依存するアルゴリズムを作ることによって、ニューラルネットワークを利用して人間の脳の論理的推論をシミュレートしようとしています。

畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンに利用されるニューラルネットワークの一種です。コンピュータはCNNを利用して画像を数値に分割し、数学的に表現します。畳み込みとは、三つ目の関数を作り出す二つの関数の組み合わせのことであり、ニューラルネットワークは畳み込みを利用して、画像に関する複数の情報をマージします。コンピュータは、画像の正確な表現を作成するためにその情報を全てまとめてプールします。情報をプールした後、コンピュータは数値順に画像を表現して、ニューラルネットワークが画像のコンテンツに関して予測を行えるようにします。例えば、自動運転車が道路で歩行者や信号、他の車を識別できるのもこの仕組みのおかげです。

ニューラルネットワークに学習させることにより、予測の正確さもやがて向上するでしょう。しかし、コンピュータは初めから物体識別の仕方を知っているわけではなく、正確に予測できるようになるまでには、膨大な学習データが必要です。

 

コンピュータビジョンの活用事例

コンピュータに適切に学習させた後は、スマートフォンのロック解除のための顔認識やFacebookにおける友達のタグ付け提案など、エンドユーザーのために活用できます。

 

医療画像に利用されるコンピュータビジョン

コンピュータビジョンの最近の進歩によって、医療業界は医療画像データを広範に利用し、疾患の診断や治療、予測に役立てることができるようになりました。例えば、Medivisは手術ナビゲーションのための視覚化ツールであるSurgicalARプラットフォームを構築し、手術にかかるコストを削減しながら合併症を減らし、治療成績を改善することを可能にしています。このプラットフォームは既に食品医薬品局から認可を取得しています。

 

自動運転車に利用されるコンピュータビジョン

コンピュータビジョンは将来の自動運転車で画像処理を司るテクノロジーです。実際、自動運転車の世界において、カメラは自動車がその環境や周囲の物体認識をするために利用する主要なツールであるため、コンピュータビジョンは「知覚」とも呼ばれます。

 

顔認識に利用されるコンピュータビジョン

Appleは最近、深層学習を利用した顔認識機能であるFace IDを発表しました。これを利用すると、パスワード入力や指紋認証の代わりに、携帯電話を見るだけでロックを解除できます。Face IDは表情や体重、髪型やアクセサリーなどの変化に適応できるようにコンピュータビジョンと機械学習を利用しています。スカーフを着用したり髭を生やしたりしても、Face IDはユーザーの顔を認識することができるようになっています。

 

Lionbridgeが提供するデータ収集、アノテーション

当社はコンピュータビジョンモデルの学習に役立つ、高品質の画像データや画像及びビデオのアノテーションを提供しています。20年の経験を基にして、正確にタグ付けした画像データを迅速かつ低価格でお届けします。弊社の100万人の専門家チームがお客様のコンピュータビジョンプロジェクトに合わせて何千件ものビデオ画像に迅速にタグ付けをいたします。

こちらからお問い合わせください。
画像のアノテーションをお探しでしたら、お気軽にお問い合わせください。 無料でお見積もりいたします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。