GAN、VAE、Transformerとは? 生成AIがよく分かる「深層学習モデル」5選押さえておきたいLLMの基礎【前編】

テキストや画像を識別し、生成できる「生成AI」は、深層学習モデルを基盤として成り立っている。生成AIを支える代表的な深層学習モデルを5つ解説する。

2024年07月25日 05時00分 公開
[Lev Craig, Olivia WisbeyTechTarget]

関連キーワード

人工知能 | 機械学習


 テキストや画像、音声、ソースコードなど、さまざまなコンテンツを生成する人工知能(AI)技術である「生成AI」の発展には、深層学習モデルが大きく寄与している。本稿は、その中でも代表的な以下の深層学習モデルについて解説する。

  • GAN(Generative Adversarial Network:敵対的生成ネットワーク)
  • VAE(Variational Auto Encoder:変分オートエンコーダー)
  • 拡散モデル (Diffusion Model)
  • Transformer(トランスフォーマー)
  • NeRF(Neural Radiance Fields)

「GAN」「VAE」「Transformer」とは? 5つの深層学習モデルを解説

GAN(Generative Adversarial Network:敵対的生成ネットワーク)

 GANは2014年に登場した深層学習モデルだ。「生成ネットワーク」と「識別ネットワーク」の2つのニューラルネットワーク(人間の脳の神経回路を模倣した機械学習モデル)が競い合う仕組みだ。

 具体的には、生成ネットワークがコンテンツを生成し、識別ネットワークはAIが生成した画像か、本物の画像かを識別する。この2つが競い合うことで、AIモデルはより本物に近いコンテンツを作成できるようになる。

VAE(Variational Auto Encoder:変分オートエンコーダー)

 GANと同じく2014年に登場したVAEは、ニューラルネットワークを使用して、データのエンコード(データを他の形式に変換する)とデコード(元のデータ形式へ復号する) を実施する。これにより、新しいデータを生成する技術を学習する。

 エンコーダーはデータを圧縮する過程で、重要な情報のみを抽出し、不要な情報を取り除く。デコーダーは圧縮されたデータをデコードして、入力データを再構成する。このようにして、VAEは効率的にコンテンツを生成できる。

拡散モデル (Diffusion Model)

 2015年に登場した拡散モデルは、データの拡散過程(ノイズが付与されて破壊される過程)を学習したモデルで、画像生成によく使用される。

 拡散モデルでは、まず入力データに徐々にノイズを加えて、ランダムなノイズ分布を作成する。その後、このプロセスを逆転させて、ノイズから新しいデータを生成する。

 「DALL・E」や「Midjourney」などの画像生成サービスは、他のAIモデルと併せて拡散モデルを使用している。

Transformer(トランスフォーマー)

 言語翻訳を改善するために2017年に登場したトランスフォーマーは、機械学習手法「アテンションメカニズム」を使用する深層学習モデルだ。アテンションメカニズムとは、人間が何かに集中するように、コンピュータも重要な部分に注意を向けられるようにする方法だ。

 アテンションメカニズムにより、Transformerは大量のラベル付けされていないテキストを処理し、データセット内の単語やサブワード(単語をさらに分解したもの)間のパターンや関係性を発見できる。

 Transformerは、大規模な生成AIモデル、特にLLMの発展を促した。さまざまなLLMが、文脈に基づいたテキストを生成するために、Transformerを使用している。

NeRF(Neural Radiance Fields)

 2020年に登場したNeRFは、機械学習とニューラルネットワークを用いて、2D(2次元)や3D(3次元)のコンテンツを生成できる。さまざまな角度から撮影された2D画像を分析し、3D構造を推測することで、写実的な3Dコンテンツを生成できる仕組みだ。ロボット工学や仮想現実(VR)など、さまざまな分野を発展させる可能性を秘めている。

生成AIツールと用途

 代表的な生成AIツールとして、

  • OpenAIの「ChatGPT」やGoogleの「Gemini」(旧Bard)といったAIチャットbot
  • 「DALL・E」や「Midjourney」といった画像生成ツール
  • 「GitHub Copilot」や「Amazon Q Developer」といったソースコード生成ツール
  • 「AudioPaLM」や「VALL-E」といった音声生成ツール

などがある。

 生成AIにはさまざまなモデルやツールがあり、以下のような幅広い用途に活用できる。

  • マーケティング用コンテンツの作成
  • ユーザーに合わせてパーソナライズ化した広告の作成
  • 調査や会議内容の要約作成

 生成AIツールの特徴や機能は個々に異なる。適切な生成AIツールを選ぶには、自社の目的に合った機能を備えているかどうかを調査することが欠かせない。


 次回は、半世紀にわたるLLMの歴史について解説する。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

ITmedia マーケティング新着記事

news071.png

酒税改正前後でビール系飲料の購買行動はどう変化した?
アルコール飲料市場に続々と新たな商品が登場する中、消費者の購買状況はどう変化してい...

news194.jpg

KARTEのプレイドが進出する「プロダクトアナリティクス」はSaaSの成長をどう支援するのか?
CXプラットフォーム「KARTE」を提供するプレイドが、日本発のプロダクトアナリティクス「...

news177.jpg

「TikTok」「Temu」「ピッコマ」etc. ダウンロード数/消費支出額トップは?
AdjustとSensor Towerが共同で発表した「モバイルアプリトレンドレポート 2024 :日本版...