キャプション生成の概観と仕組み

2020年09月09日

画像のキャプション生成とは

画像のキャプション生成とは、画像を入力データとして与えると、画像の内容を説明する、簡単なテキストを生成することをいいます。画像タスクに多く使用されるCNN(畳み込みニューラルネットワーク)と、時系列データを取り扱うことのできるRNN(再帰型ニューラルネットワーク)の両方を使用した、複雑なモデルが使用されます。モデル構築の簡単な流れとしては、学習済みCNNで画像の特徴量を抽出し、RNNの一種であるLSTMでテキストの特徴量を抽出し、さらにデコーダーでCNNとLSTMの特徴量を結合します。そして、ソフトマックス関数で次に来る単語を予測します。

 

キャプション生成用のデータセット

画像のキャプション生成を行う際、誰もが直面する課題の一つが、新規の画像データでも自然分を生成できる柔軟性の作り方でしょう。その解決法は、やはりできるだけ多くの訓練サンプルを含む教師データを使うくとです。キャプション生成の目的によっては、FacebookやInstagramにあるようなものも、画像とキャプションがセットとなっているデータであれば使えます。以下に画像のキャプション生成用に使える、英語のデータセットを2件紹介します。

  • Flickr 8k Data: 画像とその英語描写文がセットになったデータセットです。
  • Common Objects in Text (COCO): 数十万枚の画像に各画像5文ずつのキャプションが付与されているデータセットです。テストデータとして使える、キャプションが付いていない画像も含まれます。

 

出典: Common Objects in Text (COCO)

 

当社のキャプション生成サービス

日本語のキャプション生成用のデータが必要な場合は、当社が作成いたします。当社ライオンブリッジは、AI向け教師データの作成やアノテーションサービスを提供し、研究開発をサポートしております。データサイエンティストや言語学者を含む、100万人のアノテーターが登録されているので、大規模なデータセットも素早くご用意します。300言語で、全データタイプ(テキスト、画像、音声、動画)に対応可能。プロジェクトのご相談や無料トライアルは、こちらからお問い合わせ下さい。

AI向け教師データを提供し、研究開発をサポートいたします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。