もはや身近な画像識別AIや生成AIだが、その基礎となる深層学習モデルについて知らない人は多いのではないだろうか。主要モデル「CNN」「GAN」の特徴と、モデル選びで重要なポイントを解説する。
もはや日常に欠かせない画像生成AI(人工知能)や画像識別AIだが、これらの技術を支えるのが深層学習(ディープラーニング)だ。代表的なモデルとして以下の2つがある。
CNNはGANの一部として使用されるなど類似する点があるものの、そのユースケース(想定される活用例)は異なる。両モデルの特徴や関係性と併せて解説する。
CNNは「畳み込み処理」により画像の特徴を抽出する深層学習モデルで、主に画像認識用途で使用される。画像内の顔や、音声の特徴を認識するために使用される他、オーディオ信号の解釈にも最適だ。具体的なユースケースとしては以下のようなものがある。
GANは、主に文字や顔などの画像生成用途で使われる。「逆畳み込み」と呼ばれる処理で特徴をもとに画像を生成し、本物そっくりな人物や音声、その他の特性を生成できる。具体的なユースケースとしては、以下のようなさまざまな用途に利用されている。
近年はテキストや画像などを自動生成するAI技術「生成AI」(ジェネレーティブAI)の登場により、GANに注目が集まる傾向にあるが、CNNはGANの一部として真正性の判断に使用されている。
AI技術を用いたサプライチェーン最適化ベンダーToolsGroupのCTO(最高変革責任者)ピエール・クストー氏は、CNNとGANのニューラルネットワークを相互補完的なものだと説明する。「CNNは画像処理に非常に有効だ。GANの生成ネットワークも識別ネットワークも元はCNNだ」(クストー氏)
ITコンサルタント企業SPRのCTOマシュー・ミード氏は、CNNとGANを組み合わせる場合、組み合わせ方に注意が必要だと話す。「GANは通常、画像データを扱う際の識別ネットワークとしてCNNを使用する。一方で、CNNではGANを使用しない」
初期のGANは、比較的単純で解像度の低い顔画像を生成していた。GANへの関心が高まった理由の一つに、計算量あたりのコストが劇的に低下したことがある。より複雑なニューラルネットワークを構築できるようになったことで設計が進歩し、「トランスフォーマー」「変分オートエンコーダ」「拡散モデル」など他の生成AIモデルの開発にも貢献した。
コンサルティング企業SSA & Companyでプリンシパルデータサイエンティストを務めるジョン・ブランケンベイカー氏は、「深層学習モデルの活用において重要なのは、深層学習モデルそのものよりも、具体的な用途や目標、データを考えることだ」と話す。特に、モデルをトレーニングするためのデータの品質確保が課題だという。
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
なぜ料理の失敗写真がパッケージに? クノールが展開する「ジレニアル世代」向けキャンペーンの真意
調味料ブランドのKnorr(クノール)は季節限定のホリデーマーケティングキャンペーン「#E...
業界トップランナーが語る「イベントDX」 リアルもオンラインも、もっと変われる
コロナ禍を経て、イベントの在り方は大きく変わった。データを駆使してイベントの体験価...
SEOを強化するサイトの9割超が表示速度を重視 で、対策にいくら投資している?
Reproが「Webサイトの表示速度改善についての実態調査 2024」レポートを公開。表示速度改...