敵対的生成ネットワーク(GAN)「機械学習において、この10年間でもっともおもしろいアイデア」

2020年08月27日

皆様、こんにちは。今回は、正解を与えることなくデータの特徴を学習する「教師なし学習」の一手法として注目されている敵対的生成ネットワーク(GAN)について解説していきます。

オートエンコーダの記事でもGANについて少し触れましたが、今回はGAN最新技術や種類について詳しく説明します。

 

敵対的生成ネットワーク(GAN)とは

敵対的生成ネットワーク(GAN)は2014年、イアン・グッドフェロー氏に提案され、FacebookのAI研究所所長であるヤン・ ルカン氏は、機械学習において、この10年間でもっともおもしろいアイデア」と形容しました。最近、twitterで話題になったAI画伯などのAIアートの多くは、GANで作成されています。

GANとは、生成ネットワークと識別ネットワークの2つを合わせたものです。生成ネットワークは、識別ネットワークを欺くこと、識別ネットワークはより正確に識別を行うこと、を目標として学習されます。逆に生成ネットワークは、教師データと出力データの特徴が異ならないように(識別されないように)データを変えていきます。

 

GANの最新技術

2017年のICLR学会(International Conference on Learning Representations)で、1024×1024ピクセルの画像を高速に生成する「Progressive Growing of GANs」(PGGAN)が発表されました。低い解像度から始め、徐々に解像度を上げながら学習を行うことで、学習時間が大幅短縮されたことで話題になりました。

従来のGANは、出力を高精細にしようとすると、ノード数が増えるため、学習に時間が大変掛かってしまうことが課題となっていました。また、画像生成では、入力データのバリエーションが多く必要となることも課題です。

 

GANのバリエーション

最近のGANの様々なバリエーションを紹介していきます。

CycleGAN: 2枚の画像を使い、お互いに変換し合うようにさいkる条にネットワークです。Jun-Yan Zhu、Taesung Park、Phillip Isola、Alexei A. Efrosが共著した「Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks(周期的構成の敵対的ネットワークを使った対となっていない画像から画像への変換)」という論文によって提案されました。馬をシマウマに変換したこちらの動画が有名ですね。

 

Pic2pix: Phillip Isol、Jun-Yan Zhu、Tinghui Zhou、Alexei A. Efrosが共著した「Image-to-Image Translation with Conditional Adversarial Networks(制約的敵対的ネットワークを使った画像から画像への変換)」という論文によって提案されました。こちらも画像から画像への変換タスクを扱うGANで、CGAN(条件付き敵対的生成ネットワーク)から成る。こちらのデモからお試しください。

CGAN(条件付き敵対的生成ネットワーク)2014年に公開された論文「Conditional Generative Adversarial Nets」で提案された生成手法。CGANは、生成ネットワークと識別ネットワークによるGANの基本構造を踏襲しつつ、条件を与えられるように拡張されていることが特徴です。

ACE-cGAN(年齢制約敵対的生成ネットワーク)年齢別で高品質な顔画像を生成したGAN。Grigory Antipov、Moez Baccouche、Jean-Luc Dugelayが共著した「Face Aging With Conditional Generative Adversrial Networks(制約的敵対的生成ネットワークを使った顔の老化)」という題名の論文によって提案された。

DCGAN(Deep Convolutional GAN)Alec Radford、Luke Metz、Soumith Chintalaが共著した「Unsupervised Representation Learning With Deep Convolutional Generative Adversarial Networks(ディープ畳み込み敵対的生成ネットワークによる教師なし表現学習)」で紹介されました。畳み込みニューラルネットワークがGANに使われたモデルです。

StyleGAN: 2018年12月「A Style-Based Generator Architecture for Generative Adversarial Networks(敵対的生成ネットワークのためのスタイルベースの生成アーキテクチャ)」でNvidiaによって発表されました。2019年2月からオープンソースで提供され、NvidiaのCUDAソフトウェア、GPU、TensorFlowで利用可能。

 

StackGAN: テキストから画像を生成するもので、Han Zhang、Tao Xu、Hongsheng Liによって共著された「StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks(スタックな敵対的生成ネットワークを使ったテキストとフォトリアルな画像の統合)」で提案されました。

AttnGAN: マイクロソフト社によって開発され「AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks」で提案された、キャプションから画像生成を可能にしたGAN。説明文をテキスト入力すると、GANがそれに見合った画像を自動生成してくれます。

BigGAN: Google/DeepMindの研究者により「Large Scale GAN Training for High Fidelity Natural Image Synthesis(高い信頼性をもつニューラル・イメージの統合のための大規模なGANトレーニング)」と題された論文で発表されました。BigGANはラベルからの画像生成を大規模で学習させることに成功していることで有名です。最大512×512ピクセルの高解像度画像を条件付きで生成するモデルで、1000カテゴリーの画像を生成出来ます。Inception最高スコアを52.52から166.3と、大幅に上回ったことでも話題になりました。Inceptionスコアとは、画像生成の性能を、識別しやすいかと、物体クラスのバリエーションの2つの観点から点数付けしたものです。

 

GANの論文

最後に、最近の興味深いGAN論文を紹介していきます。

Analyzing and Improving the Image Quality of StyleGAN(StyleGAN画質の分析と改良)
著者: Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, Timo Aila
StyleGANを改良したStyleGAN2の提案です。

SC-FEGAN Face Editing Generative Adversarial Network with User’s Sketch and Color(SC-FEGANスケッチ画と色付けで画像生成)
著者: Youngjoo Jo, Jongyoul Park
写真に絵を描いたら、その通りに写真を修正してくれるSC-FEGANの提案です。

Consistency Regularization for Generative Adversarial Networks(GAN学習を安定させる方法について)
著者: Han Zhang, Zizhao Zhang, Augustus Odena, Honglak Lee
識別ネットワークの出力値が変化しないような制約をかけるConsistency Regularizationにより、GANの学習を安定させる方法の提案です。

 

LionbridgeのAI教師データサービス

当社はAI向け教師データの作成やアノテーションサービスを提供し、研究開発を支援しております。世界の各タイムゾーンを渡る、100万人の認定コントリビューターが登録されているので、大規模な機械学習プロジェクトも素早く仕上げることができます。無料見積もり・ご相談はこちらからお問い合わせください。

教師データの作成やアノテーションサービスを提供し、AIの研究開発を支援いたします。

メディア掲載結果

    AI・機械学習の最新情報をお届けします!

    Lionbridge AIのブログで紹介している事例記事やトレンドニュースといったビジネスに役立つ情報はもちろん、オープンデータセット集なども合わせてメール配信しております。