もはや身近な画像識別AIや生成AIだが、その基礎となる深層学習モデルについて知らない人は多いのではないだろうか。主要モデル「CNN」「GAN」の特徴と、モデル選びで重要なポイントを解説する。
もはや日常に欠かせない画像生成AI(人工知能)や画像識別AIだが、これらの技術を支えるのが深層学習(ディープラーニング)だ。代表的なモデルとして以下の2つがある。
CNNはGANの一部として使用されるなど類似する点があるものの、そのユースケース(想定される活用例)は異なる。両モデルの特徴や関係性と併せて解説する。
CNNは「畳み込み処理」により画像の特徴を抽出する深層学習モデルで、主に画像認識用途で使用される。画像内の顔や、音声の特徴を認識するために使用される他、オーディオ信号の解釈にも最適だ。具体的なユースケースとしては以下のようなものがある。
GANは、主に文字や顔などの画像生成用途で使われる。「逆畳み込み」と呼ばれる処理で特徴をもとに画像を生成し、本物そっくりな人物や音声、その他の特性を生成できる。具体的なユースケースとしては、以下のようなさまざまな用途に利用されている。
近年はテキストや画像などを自動生成するAI技術「生成AI」(ジェネレーティブAI)の登場により、GANに注目が集まる傾向にあるが、CNNはGANの一部として真正性の判断に使用されている。
AI技術を用いたサプライチェーン最適化ベンダーToolsGroupのCTO(最高変革責任者)ピエール・クストー氏は、CNNとGANのニューラルネットワークを相互補完的なものだと説明する。「CNNは画像処理に非常に有効だ。GANの生成ネットワークも識別ネットワークも元はCNNだ」(クストー氏)
ITコンサルタント企業SPRのCTOマシュー・ミード氏は、CNNとGANを組み合わせる場合、組み合わせ方に注意が必要だと話す。「GANは通常、画像データを扱う際の識別ネットワークとしてCNNを使用する。一方で、CNNではGANを使用しない」
初期のGANは、比較的単純で解像度の低い顔画像を生成していた。GANへの関心が高まった理由の一つに、計算量あたりのコストが劇的に低下したことがある。より複雑なニューラルネットワークを構築できるようになったことで設計が進歩し、「トランスフォーマー」「変分オートエンコーダ」「拡散モデル」など他の生成AIモデルの開発にも貢献した。
コンサルティング企業SSA & Companyでプリンシパルデータサイエンティストを務めるジョン・ブランケンベイカー氏は、「深層学習モデルの活用において重要なのは、深層学習モデルそのものよりも、具体的な用途や目標、データを考えることだ」と話す。特に、モデルをトレーニングするためのデータの品質確保が課題だという。
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。
CMOが生き残るための鍵は「生産性」――2025年のマーケティング予測10選【中編】
不確実性が高まる中でもマーケターは生産性を高め、成果を出す必要がある。「Marketing D...
世界のモバイルアプリ市場はこう変わる 2025年における5つの予測
生成AIをはじめとする技術革新やプライバシー保護の潮流はモバイルアプリ市場に大きな変...
営業との連携、マーケティング職の64.6%が「課題あり」と回答 何が不満なのか?
ワンマーケティングがB2B企業の営業およびマーケティング職のビジネスパーソン500人を対...