「RAGの精度がイマイチ」なら試してみるべき“改善のヒント”はこれだ：生成AIを支えるRAGの裏側【後編】

AIシステムの裏側に広く採用されている「RAG」だが、期待した精度が出ないケースも少なくない。RAGの構築から評価までのステップと、検索精度を最大化するために押さえるべきポイントを解説する。

≫ 2025年07月09日 07時00分公開

　大規模言語モデル（LLM）をベースにした生成AI（AI：人工知能）システムの裏側で広く採用されているのが「RAG」（検索拡張生成）だ。RAGは、LLMが外部のデータベースから情報を検索、取得できるようにし、事前学習していない知識や最新情報を含めたより実用的な応答を実現する仕組みだ。

　しかし導入現場では、「RAGを導入したが、期待する精度が出ない」という声も少なくない。こうした問題の背景には、RAGシステムの設計からモデル選定、評価体制に至るまで複数の要素が絡んでいる。そこで本稿は、RAGの検索精度を高めるために押さえておきたい設計・運用上のポイントを、構築から評価までのステップに沿って解説する。

RAGの精度が出ないのはなぜ？　改善のヒントはこれだ

データをベクトルに変換する「エンベディング」

　まず、検索対象となる文書やデータをベクトル（数値のリストや配列）化して、AIモデルが意味を理解できるようにする必要がある。このプロセスがエンベディング（埋め込み）だ。

　エンベディングでは、文書やそのチャンク（小さい区切り）を、AIモデルが処理しやすいベクトルに変換する。ベクトルはベクトルデータベースに保存され、検索や生成処理の際に活用される。

　エンベディングモデルには、大きく分けて以下の2種類がある。

密（dense）モデル
- 多くのLLMで採用される一般的な方式。固定長のベクトル（768次元、1536次元など）を出力し、ベクトルの次元数（x次元）が表現力や計算コストに影響する。
スパース（sparse）モデル
- 入力テキストに応じてベクトルの次元数や密度が可変となる方式。検索精度の最適化を目的とするモデルでよく用いられる。

　これらを組み合わせたハイブリッド方式も存在する。特に短文（SNSのコメントやFAQなど）を対象とする際に有効で、検索精度と処理効率を両立する。代表的なものは以下の通り。

Splade
ColBERT
IBM sparse-embedding-30M

　ベクトルの次元数は、検索精度や処理速度に大きく影響する。次元数の多いベクトルは、より豊富なコンテキスト（文脈）やニュアンスを保持できて検索精度の向上が期待できる一方、ベクトルの生成と検索に計算リソースを多く消費する。反対に、次元数の少ないベクトルは保持できる情報量も限られるが、検索処理が高速で軽量なため、応答速度やリソース効率を重視する用途に適している。

　エンベディングモデルを選定する際は、以下の要素を考慮すべきだ。

ベクトルデータベースの仕様
- 対応する次元数や検索アルゴリズム、ストレージ容量などが選定に影響する。
連携するLLMの特性
- LLMがエンベディングで使用する表現空間との整合性や、推論時の相性も重要。
用途（検索、分類、生成など）
- 検索対象の文書量や応答に求められる精度、リアルタイム性などに応じて最適解は異なる。

　エンベディングモデルの性能比較に役立つベンチマークとして、Hugging Faceの「MTEB」（Massive Text Embedding Benchmark）などがある。

　注意すべき点として、ユーザーが入力するクエリ（AIモデルに対する指示）と文書のベクトルは、基本的には同じエンベディングモデルで生成する必要がある。異なるモデルでベクトル化すると、ベクトル間の類似度が適切に評価されなくなるからだ。

　使用するエンベディングモデルが特定分野の専門用語や文脈を保持していない場合は、ファインチューニング（追加学習）が精度向上に有効だ。

併せて読みたいお薦め記事

連載：生成AIを支えるRAGの裏側

前編：「RAGがうまくいかない」のはなぜ？　精度を高める“チャンキング”のこつ

なぜRAGが注目されるのか

ベクトル検索の精度を高める「リランク」

　ベクトル検索では文脈の微差を捉えきれないため、意味的な判定に限界がある。より精度の高い回答を引き出すために、リランクモデル（reranking model）の活用が有効だ。

　まず、AIモデルが検索結果を通常より多めに取得する。次に、リランクモデルがクエリとの関連度に基づいて結果を並べ替え、より適切な順序でLLMに渡す。

　代表的なリランクモデルには、次のようなものがある。

Cohereの「Cohere Rerank」
オープンソースの「BGE」
DeepSeekの「Janus AI」
Elasticの「Elastic Rerank」

　リランクモデルを使用すると処理が増えるため、結果の返答に遅延（レイテンシ）が生じる可能性がある。専門的なデータを扱う場合は再トレーニングが望ましい場合もある。一方、リランクの過程で各チャンクに「関連スコア」が付与されるため、RAGシステムの精度や挙動を監視、評価するデータとして有用だという見方もある。