検索
特集/連載

「CNN」「GAN」は何に使える? ディープラーニングの基本用語深層学習モデルの仕組み【後編】

もはや身近な画像識別AIや生成AIだが、その基礎となる深層学習モデルについて知らない人は多いのではないだろうか。主要モデル「CNN」「GAN」の特徴と、モデル選びで重要なポイントを解説する。

Share
Tweet
LINE
Hatena

関連キーワード

人工知能 | 機械学習


 もはや日常に欠かせない画像生成AI(人工知能)や画像識別AIだが、これらの技術を支えるのが深層学習(ディープラーニング)だ。代表的なモデルとして以下の2つがある。

  • CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)
  • GAN(Generative Adversarial Network:敵対的生成ネットワーク)

 CNNはGANの一部として使用されるなど類似する点があるものの、そのユースケース(想定される活用例)は異なる。両モデルの特徴や関係性と併せて解説する。

「CNN」「GAN」とは? ユースケースと併せて解説

 CNNは「畳み込み処理」により画像の特徴を抽出する深層学習モデルで、主に画像認識用途で使用される。画像内の顔や、音声の特徴を認識するために使用される他、オーディオ信号の解釈にも最適だ。具体的なユースケースとしては以下のようなものがある。

  • 文章の読み取り
  • 病状の把握や画像診断
  • 生体認証
  • 製品の外観検査や異常音判定
  • カスタマーサービスにおける顧客の声の感情認識

 GANは、主に文字や顔などの画像生成用途で使われる。「逆畳み込み」と呼ばれる処理で特徴をもとに画像を生成し、本物そっくりな人物や音声、その他の特性を生成できる。具体的なユースケースとしては、以下のようなさまざまな用途に利用されている。

  • 特定個人にそっくりな顔や、声と口調の合成、生成
    • 「ディープフェイク」と呼ばれる偽(フェイク)の画像、動画、音声による問題を引き起こす場合がある
  • ニュースや詩、ソースコードなどのテキスト生成
  • 創薬プロセスにおける化合物生成

CNNとGANの使用で注意すべきことは?

 近年はテキストや画像などを自動生成するAI技術「生成AI」(ジェネレーティブAI)の登場により、GANに注目が集まる傾向にあるが、CNNはGANの一部として真正性の判断に使用されている。

 AI技術を用いたサプライチェーン最適化ベンダーToolsGroupのCTO(最高変革責任者)ピエール・クストー氏は、CNNとGANのニューラルネットワークを相互補完的なものだと説明する。「CNNは画像処理に非常に有効だ。GANの生成ネットワークも識別ネットワークも元はCNNだ」(クストー氏)

 ITコンサルタント企業SPRのCTOマシュー・ミード氏は、CNNとGANを組み合わせる場合、組み合わせ方に注意が必要だと話す。「GANは通常、画像データを扱う際の識別ネットワークとしてCNNを使用する。一方で、CNNではGANを使用しない」

 初期のGANは、比較的単純で解像度の低い顔画像を生成していた。GANへの関心が高まった理由の一つに、計算量あたりのコストが劇的に低下したことがある。より複雑なニューラルネットワークを構築できるようになったことで設計が進歩し、「トランスフォーマー」「変分オートエンコーダ」「拡散モデル」など他の生成AIモデルの開発にも貢献した。

 コンサルティング企業SSA & Companyでプリンシパルデータサイエンティストを務めるジョン・ブランケンベイカー氏は、「深層学習モデルの活用において重要なのは、深層学習モデルそのものよりも、具体的な用途や目標、データを考えることだ」と話す。特に、モデルをトレーニングするためのデータの品質確保が課題だという。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る