画像認識や生成技術の基礎「CNN」「GAN」とは? 押さえたい特徴と違い深層学習モデルの仕組み【前編】

主要な深層学習モデルとして「畳み込みニューラルネットワーク」(CNN)と「敵対的生成ネットワーク」(GAN)がある。両者には似通う点があるが、仕組みや使い方は異なる。その成り立ちから解説する。

2024年02月19日 05時00分 公開
[George LawtonTechTarget]

関連キーワード

人工知能 | 機械学習


 深層学習(ディープラーニング)は、人間の脳の神経回路を模倣した「ニューラルネットワーク」を用いる機械学習の手法だ。代表的なモデルとして以下の2つがある。

  • CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)
  • GAN(Generative Adversarial Network:敵対的生成ネットワーク)

 簡単に説明すると、CNNは写真に猫が映っていることを認識するモデルで、GANは猫が映っている写真を生成するモデルだ。CNNはGANの一部として、画像や音声コンテンツを生成、識別するために使われることもある。

 コンサルティング企業SSA & Companyでプリンシパルデータサイエンティストを務めるジョン・ブランケンベイカー氏によると、CNNとGANの本質は類似するものの、仕組みや出力内容は異なるという。その成り立ちから見ていこう。

CNN(畳み込みニューラルネットワーク)

会員登録(無料)が必要です

歴史

 CNNは、1980年代に登場した深層学習モデルの古株で、主に画像認識用途で使用される。フランス人のコンピュータ科学者ヤン・ルカン氏がCNNを発明した。ルカン氏は2003年からニューヨーク大学の教授に就任した他、2013年以降はMeta Platforms(旧Facebook)でチーフAIサイエンティストを務めている。

 元々ルカン氏は、ニューラルネットワークを活用した手書き数字の認識ツールを開発していた。OCR(光学式文字認識)に関するヤン氏の研究は画期的なものだったが、学習データと計算能力の限界に行き詰まり、CNNの技術を応用したという。

 2010年、ラベル付けされた画像の大規模データベース「ImageNet」が登場した他、画像認識アルゴリズムのコンテスト「ImageNet Large Scale Visual Recognition Challenge」(ILSVRC)が開催され、画像認識技術への世間の関心は爆発的に高まった。

 コンテストで大きな成功を収めたのが、GPU(グラフィックス処理装置)に最適化されたCNNベースの深層学習モデル「AlexNet」だった。CNNを効率的にスケールアップさせれば、大規模データベースでも高精度の画像認識が可能なことを実証する機会となった。

仕組み

 コンサルティング企業Lotis Blue Consultingのパートナーで、データサイエンス部門を率いるドンチャ・キャロル氏は、「CNNは画像や動画など、空間構造を持つデータを扱えるような設計を採用している」と説明する。

 CNNのCは畳み込み(convolutional)の頭文字を意味する。畳み込み処理では、近接関係で重要であるもの――例えば特定のピクセル(画素)の周囲のピクセルや、ある瞬間の前後の信号値など――に反応するフィルタを画像上で移動し、掛け合わせる。畳み込みにより、近くのエッジ(輪郭)やテクスチャー(質感)のパターンを認識し、特徴を抽出する。例えば動物を認識するように設計されたCNNは、動物の足や体、頭のいずれかを認識するとアクティブ状態になる。

 基本的にCNNは「教師あり学習」(事前に人間が用意した正解データを基にする学習)で学習する。

GAN(敵対的生成ネットワーク)

歴史

 GANは2014年に登場した比較的新しい深層学習モデルで、主に文字や顔などの画像を生成するために使われる。医用画像の合成や音声合成に応用できることから爆発的に普及した。発明者は、GoogleのGoogle Brain部門に勤務していた米国のコンピュータ科学者イアン・グッドフェロー氏だ。グッドフェロー氏は2024年2月時点で、人工知能(AI)エンジン開発で知られるDeepMind Technologiesのリサーチサイエンティストを務めている。

仕組み

 「敵対的」という言葉は、「生成ネットワーク」と「識別ネットワーク」の競合する2つのネットワークがコンテンツを生成し、画像を識別することに由来する。例えば、顔の画像を生成するケースでは、生成ネットワークは顔の画像を生成する。対して識別ネットワークは、本物の顔の画像と生成された顔の画像を判別しようとする。識別ネットワークから得たデータは、生成ネットワークのトレーニングに活用できるため、モデル全体の性能向上が期待できる。

 コンサルティング企業Lotis Blue Consultingのパートナーで、データサイエンス部門を率いるドンチャ・キャロル氏は、CNNとGANの重要な違いとして「GANの生成ネットワークが畳み込み処理を逆転させる点」を挙げる。畳み込みは画像から特徴を抽出するのに対し、逆畳み込みは特徴から画像を生成する。

 GANは基本的に「教師なし学習」で学習する。つまり、人間がデータにラベルを付ける必要がなく、自律的に学習できる。


 後編は、CNNとGANのユースケースと関係性について解説する。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

新着ホワイトペーパー

技術文書・技術解説 アイティメディア広告企画

クラウドか、オンプレミスか? AI時代のインフラに求められる要件とは

AI導入の成否は、その土台となるインフラに左右されると言っても過言ではない。企業がAIモデルの性能を最大限に引き出すために、インフラ構築時に検討すべきポイントを体系的に解説する。

製品資料 NHN テコラス株式会社

初心者向けに徹底解説:生成AIのビジネス活用で重要なポイントとユースケース

文書作成の効率化、マーケティング支援、顧客対応補助など、業務に生成AIの活用を考えている企業は多い。本資料では、生成AIの基本的な仕組みから、ビジネス現場での活用例までを紹介。失敗しない生成AI導入に役立てることができる。

製品資料 東京エレクトロン デバイス株式会社

生成AI活用の鍵、セキュリティと利便性を両立するための方法とは?

生成AIの活用には機密情報漏えいなどのリスクがあるため、利用を制限しているケースもある。しかし、完全に利用を制限してしまうと競合に後れを取る可能性がある。そこで重要なのが、セキュリティと利便性を両立できるような環境構築だ。

製品レビュー ストックマーク株式会社

AI技術を使って必要な情報を自動で抽出/要約する「情報収集サービス」の実力

日々情報が増え続ける今、業務に必要な全ての情報を、社内外の関連ニュースや論文、特許情報などから収集していくのは至難の業だ。そこで業務に必要な情報を着実に届けるための仕組み作りに役立つサービスを紹介する。

製品資料 ゼットスケーラー株式会社

セキュリティリーダー必見:データセキュリティの複雑化によるリスクの解消方法             

クラウド利用の拡大に伴い、データが分散・肥大化する中、従来のセキュリティ対策の限界が見え始めている。データの所在や利用状況を可視化し、リスクを事前に把握して対応することが求められる今、有効となる新たなアプローチを探る。

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...