「生成AI」と「LLM」を混同してはいけない“4つの理由”押さえておきたいLLMの基礎【後編】

生成AIと聞いて「GPT」をはじめとする「LLM」を思い浮かべるのは間違いではないが、LLMと生成AIは異なる概念だ。4つの視点からその違いを解説する。

2024年08月08日 05時00分 公開
[Lev Craig, Olivia WisbeyTechTarget]

関連キーワード

人工知能 | 機械学習


 テキストや画像を生成する人工知能(AI)技術である「生成AI」と聞いて、「GPT」をはじめとする「大規模言語モデル」(LLM)を思い浮かべる人がいる。それは間違った考え方ではないが、生成AIとLLMは同じではない。生成AIのベースとなる基盤モデルのさまざまな種類を踏まえて、生成AIとLLMを混同してはいけない理由を4つの視点で解説する。

「生成AI」と「LLM」を混同してはいけない4つの理由

用途の違い

 LLMは、テキストの生成や要約、質問への回答など、言語関係のタスクに特化している。LLMは、生成AIのベースとなる基盤モデルの一種だ。対する生成AIは、多様なAIモデルを含み、入出力データの種類も多岐にわたる。

 一般的なLLMの用途は以下の通り。

  • テキスト生成
    • マーケティング資料から小説、ソースコードに至るまで、ユーザーのプロンプト(指示文)に基づき、前後の文脈と一貫した内容のテキストを生成できる。
  • 翻訳
    • ある言語から別の言語へテキストを翻訳できる。翻訳専用AIモデルと比較すると回答精度は劣る傾向にある。特にマイナーな言語ではその傾向が顕著だ。
  • 質問への回答
    • 自然言語での質問に回答できる。ハルシネーション(事実に基づかない回答を出力すること)や誤った回答を生成してしまうリスクはあるものの、難しい用語を簡単に言い換えたり、例えを使って分かりやすく説明したり、多種多様なトピックについてアドバイスしたりすることができる。
  • 要約
    • 長い文章を短くまとめたり、重要なポイントを特定することができる。例えば、GoogleのLLM「Gemini 1.5 Pro」は最大100万トークン(テキストデータを処理する際の基本的な単位)を一度に分析できる。これは、英語でおよそ75万語、平均的な長さの小説9冊分に相当する。
  • 対話
    • 質問や回答を出力し、ユーザーとの会話をシミュレーションできる。チャットbotやバーチャルアシスタントに最適だ。

 生成AIの用途としては、LLMの用途以外にも以下がある。

  • 画像生成
    • 「Midjourney」や「DALL・E」をはじめとする画像生成モデルは、ユーザーのプロンプトに基づいて画像を生成できる。Adobeの画像生成AIサービス「Adobe Firefly」は、ポートレートの背景を生成するなど、人間が作成した画像の一部を編集することもできる。
  • 動画生成
    • OpenAIが2024年2月に発表した動画生成AI「Sora」は、ユーザーのプロンプトに基づいて、実写のような映像やアニメーションを生成できる。
  • 音声生成
    • 楽曲やスピーチなど、多様な音声データを生成できる。例えば、スタートアップAIベンダーElevenLabsの音声クローン生成AIは、数分のユーザー音声を渡すと、似た声を生成できる。Googleの音楽生成AI「Lyria」は、ユーザーのリクエストに応じて楽器やボーカル有りの楽曲を生成できる。
  • 合成データの生成
    • 実際のデータの代わりに使える人工のデータである「合成データ」を生成できる。AIモデルのトレーニング用に実データを入手するのが困難な場合や、データの機密性が高い場合に役立つ。例えば、医療向けAIモデルをトレーニングする場合、個人の医療情報の代わりに合成データを使用できる。一方で、合成データに頼り過ぎるとモデルの精度に影響する可能性があるため注意が必要だ。

アーキテクチャの違い

 LLMの中核となるアーキテクチャは、他の種類の基盤モデルが使用するアーキテクチャと異なる場合がある。

 現代のLLMのほとんどは、アーキテクチャにTransformerを使用する。Transformerは、機械学習手法「アテンションメカニズム」を使用する。これは、人間が何かに集中するように、コンピュータも重要な部分に注意を向けられるようにする方法だ。

 アテンションメカニズムを使用することで、LLMは単語間の関係や、それぞれの相対的な重要度を分析し、長文テキストを理解できる。TransformerはLLMだけでなく、画像生成など他の種類のAIモデルにも使用される。

 LLM以外の基盤モデルに使用されるアーキテクチャの一つに、CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)がある。CNNは主に画像処理で使われ、輪郭(りんかく)や質感、オブジェクトや場面の全体に至るまで、画像の特徴を抽出できる。

学習データの違い

 LLMとその他の基盤モデルでは、学習データの範囲や形式が異なる傾向にある。

 LLMは、「大規模言語モデル」という名称が示すように、トレーニングに膨大な言語データセットを用いる。データセットには、小説やニュース記事から、ソーシャルニュースサイト「Reddit」の投稿まで幅広いソースが含まれる。これらは基本的に全てテキストデータだ。

 一方、生成AIの学習データには、画像や音声、動画など、多岐にわたるデータ形式が含まれる。データ形式が違う場合、学習プロセスも異なる。例えば、LLMと画像生成AIのデータ準備段階では、データの前処理や正規化の方法が異なる。

制約面の違い

 生成AIのトレーニングには、学習データのバイアス(偏り)や、学習に必要なデータの不足といった課題が付き物だ。その中には、LLM独特の課題や限界が大きく3つ存在する。

 1つ目の課題は、学習データの範囲が広範であることだ。専門的な技術文書から中世の詩、画像やソーシャルネットワークサービス(SNS)のキャプションまで、インターネットに存在するテキストは多種多様だ。そのためLLMは基本的な単語だけでなく、風変わりな言い回しや、文脈によって意味が変わる語についても学ばなければならない。どれほど回答精度の高いLLMでも、文章の微妙なニュアンスを理解するのに苦労するし、ハルシネーション(事実に基づかない回答を出力すること)や誤った回答を生成してしまうリスクは避けられない。

 2つ目の課題は、ハルシネーションの判別は難しいということだ。厄介なことにLLMが出力した内容は、不正確な情報でももっともらしく見える。画像生成AIの場合、生成した人物画像の手の指が8本だったり、コーヒーカップがテーブルから浮かんだりしていたら、不自然だと気付く可能性が高い。一方で、LLMが複雑な科学論文を出力したとして、事実に相反していても大半の人は気付けないだろう。

 3つ目の課題は、回答の一貫性確保が困難であることだ。LLMは長いプロンプト(指示文)を分析し、複雑な応答を生成することが求められる。短い文章ならば、理解や生成を容易にできる一方で、長文になると一貫性を保つことが難しくなる。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

鬮ォ�エ�ス�ス�ス�ス�ス�ー鬯ィ�セ�ス�ケ�ス縺、ツ€鬩幢ス「隴取得�ス�ク陷エ�・�ス�。鬩幢ス「�ス�ァ�ス�ス�ス�、鬩幢ス「隴主�讓滂ソス�ス�ス�ス鬩幢ス「隴趣ス「�ス�ス�ス�シ鬩幢ス「隴乗��ス�サ�ス�」�ス�ス�ス�ス

製品資料 フォーティネットジャパン合同会社

ネットワーク運用を効率化、手動の構成やトラブルシューティングを排除するには

ある調査によると手動によるネットワーク操作は、65%に上るという。ネットワークの構成やトラブルシューティングといった手動に頼っている部分をAIによって自動化すれば、運用の効率化が可能だ。本資料では、その実現方法を解説する。

製品資料 アドビ株式会社

生成AIで業務改革、PDFツールの“AIアシスタント”で何がどう変わる?

ビジネスにおける生成AI活用が進む中、日々の業務で活用するPDFツールに搭載されたAIアシスタント機能への注目度が高まっている。その活用で、どのように業務を改善できるのか。機能や特徴、期待される効果を紹介する。

製品資料 ニュータニックス・ジャパン合同会社

PoC段階で30%の企業が導入を断念、生成AIプロジェクトを成功に導くためには?

企業にとって生成AIは、生産性向上や収益性増加をもたらす重要な技術だが、導入には多くの課題が存在する。PoC(概念実証)段階で約30%の企業が導入を断念するといわれる生成AIプロジェクトを成功に導くための方法を紹介する。

製品資料 グーグル・クラウド・ジャパン合同会社

約80%の企業でAIが定着していない? その理由と成功させるためのポイントとは

生成AIを活用して業務や顧客体験の再構築を進める動きが活性化しているが、その多くが、PoCやラボ環境の段階にとどまっている。なぜなら、生成AIの可能性を最大限に引き出すための、インフラのパフォーマンスが不十分だからだ。

市場調査・トレンド グーグル・クラウド・ジャパン合同会社

ソフトウェア開発ライフサイクルにおける、生成AI活用のポイントを考察する

昨今のソフトウェア開発では、AIコーディングアシスタントの活用が主流になっている。しかし、最適なコーディングアシストツールは、開発者や企業によって異なるという。導入の際は、どのようなポイントに注意すればよいのか。

郢晏生ホヲ郢敖€郢晢スシ郢ァ�ウ郢晢スウ郢晢ソスホヲ郢晢ソスPR

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

「生成AI」と「LLM」を混同してはいけない“4つの理由”:押さえておきたいLLMの基礎【後編】 - TechTargetジャパン エンタープライズAI 隴�スー騾ケツ€髫ェ蛟�スコ�ス

ITmedia マーケティング新着記事

news025.png

「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。

news014.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news046.png

「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。