テキストや画像を識別し、生成できる「生成AI」は、深層学習モデルを基盤として成り立っている。生成AIを支える代表的な深層学習モデルを5つ解説する。
テキストや画像、音声、ソースコードなど、さまざまなコンテンツを生成する人工知能(AI)技術である「生成AI」の発展には、深層学習モデルが大きく寄与している。本稿は、その中でも代表的な以下の深層学習モデルについて解説する。
GANは2014年に登場した深層学習モデルだ。「生成ネットワーク」と「識別ネットワーク」の2つのニューラルネットワーク(人間の脳の神経回路を模倣した機械学習モデル)が競い合う仕組みだ。
具体的には、生成ネットワークがコンテンツを生成し、識別ネットワークはAIが生成した画像か、本物の画像かを識別する。この2つが競い合うことで、AIモデルはより本物に近いコンテンツを作成できるようになる。
GANと同じく2014年に登場したVAEは、ニューラルネットワークを使用して、データのエンコード(データを他の形式に変換する)とデコード(元のデータ形式へ復号する) を実施する。これにより、新しいデータを生成する技術を学習する。
エンコーダーはデータを圧縮する過程で、重要な情報のみを抽出し、不要な情報を取り除く。デコーダーは圧縮されたデータをデコードして、入力データを再構成する。このようにして、VAEは効率的にコンテンツを生成できる。
2015年に登場した拡散モデルは、データの拡散過程(ノイズが付与されて破壊される過程)を学習したモデルで、画像生成によく使用される。
拡散モデルでは、まず入力データに徐々にノイズを加えて、ランダムなノイズ分布を作成する。その後、このプロセスを逆転させて、ノイズから新しいデータを生成する。
「DALL・E」や「Midjourney」などの画像生成サービスは、他のAIモデルと併せて拡散モデルを使用している。
言語翻訳を改善するために2017年に登場したトランスフォーマーは、機械学習手法「アテンションメカニズム」を使用する深層学習モデルだ。アテンションメカニズムとは、人間が何かに集中するように、コンピュータも重要な部分に注意を向けられるようにする方法だ。
アテンションメカニズムにより、Transformerは大量のラベル付けされていないテキストを処理し、データセット内の単語やサブワード(単語をさらに分解したもの)間のパターンや関係性を発見できる。
Transformerは、大規模な生成AIモデル、特にLLMの発展を促した。さまざまなLLMが、文脈に基づいたテキストを生成するために、Transformerを使用している。
2020年に登場したNeRFは、機械学習とニューラルネットワークを用いて、2D(2次元)や3D(3次元)のコンテンツを生成できる。さまざまな角度から撮影された2D画像を分析し、3D構造を推測することで、写実的な3Dコンテンツを生成できる仕組みだ。ロボット工学や仮想現実(VR)など、さまざまな分野を発展させる可能性を秘めている。
代表的な生成AIツールとして、
などがある。
生成AIにはさまざまなモデルやツールがあり、以下のような幅広い用途に活用できる。
生成AIツールの特徴や機能は個々に異なる。適切な生成AIツールを選ぶには、自社の目的に合った機能を備えているかどうかを調査することが欠かせない。
次回は、半世紀にわたるLLMの歴史について解説する。
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
ハロウィーンの口コミ数はエイプリルフールやバレンタインを超える マーケ視点で押さえておくべきことは?
ホットリンクは、SNSの投稿データから、ハロウィーンに関する口コミを調査した。
なぜ料理の失敗写真がパッケージに? クノールが展開する「ジレニアル世代」向けキャンペーンの真意
調味料ブランドのKnorr(クノール)は季節限定のホリデーマーケティングキャンペーン「#E...
業界トップランナーが語る「イベントDX」 リアルもオンラインも、もっと変われる
コロナ禍を経て、イベントの在り方は大きく変わった。データを駆使してイベントの体験価...