検索
特集/連載

AIモデルの性能を高め、「幻覚」を防ぐ「オブザーバビリティ」を実現するにはLLM可観測性の柱【前編】

AIモデルの不具合を防ぐにはパフォーマンス監視が重要だ。その手法としてLLMの「オブザーバビリティ」(可観測性)がある。どうやって実現できるかを解説する。

Share
Tweet
LINE
Hatena

関連キーワード

人工知能 | 管理者 | インフラ


 「オブザーバビリティ」(可観測性)は、大規模言語モデル(LLM)のパフォーマンスを評価し、いち早く不具合に対処するために重要だ。最初に学習したデータと実運用で扱うデータにずれが生じることから、LLMは時間や時代の変化とともに応答の正確性が下がる「ドリフト」という現象を起こす可能性がある。AIモデルが誤った情報を真実であるかのように生成する「幻覚」(ハルシネーション)を起こしていないかどうか特定するためにも、オブザーバビリティは欠かせない。どうやって実現できるのか。本稿はLLMオブザーバビリティの「5つの柱」を紹介する。

5つの柱で分かる LLMオブザーバビリティの実現方法

 LLMオブザーバビリティの実現に当たり、監視システムを自社で構築する他、ベンダーによるオブザーバビリティ用ツールを用いる選択肢もある。どちらが最適かは、企業の規模やITリソースによって異なる。

 従来のシステム監視は、CPUやメモリの使用率などを追跡し、問題を特定したり、必要なリソースを当てたりするものだ。LLMオブザーバビリティはこれらに加え、AIモデルの出力品質や、AIモデルの利用がビジネス目的に合っているかどうかといったことを把握できるようにする必要がある。以下でLLMオブザーバビリティの5つの柱を見てみよう。

1.評価

 最初に重要になるのは、明確なLLMの評価基準を定めることだ。これには、技術的な観点の他、ユーザーの行動や運用に掛かるコストなどの観点も含まれる。技術的な観点では、LLMの問題がなぜ発生したのかを理解することが大切だ。評価基準を明確にすることで、問題の原因特定もしやすくなると考えられる。

 LLMオブザーバビリティに取り組む際、専用のフレームワークを用いることが有効だ。LLMオブザーバビリティのフレームワークはプロンプトの品質や回答の正確性、処理にかかったトークン数など、LLM独自のパラメータを取り入れて、より深い洞察を得られるようにしている。LLMオブザーバビリティのフレームワークを利用すれば、LLMのユーザー体験(UX)についてもヒントを得て、改善につなげられる。

2.「トレース」と「スパン」

 2つ目の柱は、トレースとスパンを用いることだ。トレースとは、あるリクエストに対してAIモデルがどのようなプロセスで回答を生成したかを追跡する仕組みを指す。スパンは、LLMの動作を詳細に追跡し分析する。AIモデルが回答を生成するプロセスを小さな「単位」に分割することで、プロセスを細かく把握できるようにする。

3.RAG

 RAG(検索拡張生成)は学習データ以外に外部のデータベースから情報を取得し、LLMの回答精度を高める手法だ。RAGを使えば、外部情報に基づいてAIモデルのパフォーマンス評価の正確さを高められる。LLMは複数のコンポーネントで構成され、それらには外部APIも含まれる。企業はRAGによって、外部APIも含めてLLMのパフォーマンスを包括的に評価できる。

4.微調整の監視

 企業はLLMの微調整(ファインチューニング)によって、特定のデータセットを用いてLLMをカスタマイズし、より自社のタスクに合わせられる。ただし微調整がLLMのパフォーマンスに悪影響を与える恐れがある。LLMオブザーバビリティに基づき微調整による影響を監視すれば、迅速に問題を把握し修正できる。

5.プロンプトエンジニアリング

 プロンプトエンジニアリングは、望ましい回答を生成させるためのプロンプト設計プロセスだ。LLMに対する質問や指示に関して工夫を凝らすことで、LLMのパフォーマンス改善につなげられる。


 後編は、LLMオブザーバビリティ用ツールに求められる機能を考える。

Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。

ページトップに戻る