AIモデルがもっともらしいうそや誤情報を生成する「ハルシネーション」を抑制することは、企業にとって喫緊の課題だ。発生の原因や、ハルシネーションを発生させないための取り組みを整理する。
幻覚(ハルシネーション)は、人工知能(AI)が不正確な情報をまるで真実であるかのように生成、提示する現象を指す。特に「LLM」(大規模言語モデル)においては、ハルシネーションの発生頻度を下げたり、その影響を最小限に抑えたりするためのさまざまな方法が検討されている。どのような方法がハルシネーションの抑制に効果があるのか。
ハルシネーションの例として以下の回答が挙げられる。
ハルシネーションは、金融分析や安全性が求められる場面など、回答の正確性が重要な場面では深刻な問題を引き起こす恐れがある。
LLMがハルシネーションを引き起こす原因は主に4つある。
LLMは学習データに基づいて回答を生成する。同時に、エンドユーザーの質問にできるだけ答えるように促されている。結果として、学習していない情報に基づく質問をされた場合でも回答を返そうとするため、誤答や質問とは関連が少ない回答を生成する。
深層学習モデル「Transformer」を基盤とするLLMは、プロンプト(情報生成のための質問や指示)を「トークン」と呼ばれる一連の言語的要素として処理している。LLMが同時に処理できるトークンの数をコンテキストウィンドウと呼ぶ。コンテキストウィンドウには容量があり、コンテキストウィンドウの容量が大きければ大きいほど、モデルはより多くの情報を一度に処理できる。だが、LLMのコンテキストウィンドウを拡大するには、計算能力が必要になるため、LLMの大半は限られたコンテキストウィンドウで動作している。プロンプトや、プロンプトを適切に理解するために必要な情報がコンテキストウィンドウに含まれていないと、LLMは文脈を十分に理解することができず、誤った回答をする可能性がある。
機械学習手法「アテンションメカニズム」は、プロンプトのどの部分に重点を置くべきかを動的に判断する仕組みだ。アテンションメカニズムが質問された文章の中から重要な部分を適切に見分けられない場合、もしくは誤って重要ではない部分に注目してしまった場合、ハルシネーションが発生する可能性がある。エンドユーザーが、「ワシントンD.C.の重要性は何?」と質問した際に、都市のワシントンD.C.ではなく、米国初代大統領のジョージ・ワシントン氏に関する説明を生成するといった具合だ。このような回答を生成させないためには、質問の趣旨やプロンプトに含まれる情報の関連性をLLMが適切に重み付けして処理できるようにすることが重要だ。
過学習は、学習データの特定の情報を記憶してしまい、その情報に関する回答の精度は高いものの、新しいデータに適合できず適切に回答することが難しい状態を指す。新しいデータに適合できないために、ハルシネーションを引き起こす可能性がある。「バラは赤い」というフレーズばかりを学習していると、バラの色について尋ねられた際に「赤」としか答えず、他の色の存在を無視してしまうといった具合だ。
ハルシネーションの発生を完全に排除するのは困難だ。しかし、以下の対策を取ることで発生頻度や影響を抑えられる可能性がある。
ハルシネーションを減らすための取り組みは進行している。フランスの研究者らの研究によると、AIベンダーOpenAIのLLM「GPT-3.5」と「GPT-4」を特定条件下で比較したところ、GPT-3.5のハルシネーションの発生率は39.6%、GPT-4のハルシネーションの発生率は28.6%だった。この研究の結果は、2024年5月発行の雑誌『Journal of Medical Internet Research』に掲載された論文「Hallucination Rates and Reference Accuracy of ChatGPT and Bard for Systematic Reviews: Comparative Analysis」で公開されている。
この比較結果からは、AIモデルの進化によってハルシネーションの発生率が減少する可能性を示している。だが、減少するとしてもゼロになる可能性は低い。発生をゼロにするためには、以下が必要となるためだ。
特に最初の2つは実現不可能だ。どのようなデータセットもあらゆる可能性のあるプロンプトを予測できず、無制限に展開できるサイズのコンテキストウィンドウを利用するためには無制限の計算能力が必要となるからだ。モデルを設計する際の改良を通じてアテンションメカニズムや過学習の問題を軽減できる可能性はあるが、完全に排除できると期待するのは非現実的だ。
ハルシネーションのリスクを最小限に抑える方法としては、質問と回答のセットを用意し、同じ質問に対して常に同じ回答を返す仕組み(決定論的なシステム)を活用することだ。ただし、このアプローチは柔軟性に掛け、想定外の質問には対処できないという制約がある。
TechTarget.AI編集部は生成AIなどのサービスを利用し、米国Informa TechTargetの記事を翻訳して国内向けにお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...