“RAG is dead”は本当? AIエージェントが切り拓く「次世代RAG」と検索の未来:エージェント型検索とRAGは対立しない
AIエージェントの普及により「RAG不要論」が広がる中、Turbopufferのクーバ・ロガット氏は、RAG関連需要は再び拡大していると指摘した。むしろ、より高度な形へと進化しているという。どのように変化しているのか。
生成AIやAIエージェントの普及に伴い、SNSや技術コミュニティでは「RAG(Retrieval-Augmented Generation)はもう不要」「エージェント型のファイル検索だけで十分だ」といった意見を目にする機会が増えた。特に2025年後半以降は、AIエージェントが自律的に情報を探索できるようになったことで、「従来型RAGは過去の技術になった」という見方も広がっている。
しかし、実態はそれほど単純ではない。オブジェクトストレージ上で動くベクトル検索・全文検索エンジンを提供するTurbopufferのデプロイメントエンジニアであるクーバ・ロガット氏によれば、“RAG is dead”という言説とは対照的に、RAG関連の検索ボリューム(検索数)は2025年半ばから再び大きく伸び始めているという。
その背景には、RAGそのものに対する誤解があるという。
RAGは終わってない? 検索トレンドが示す意外な現実
併せて読みたいお薦め記事
AI用のデータ整備を考える
ロガット氏によると、「多くの人はRAGを、ベクトル検索で関連文書を取得し、LLM(大規模言語モデル)に渡す仕組み」と考えている。しかし本来のRAGは、ベクトル検索だけを指すものではない。アルゴリズムの「BM25」やLinuxの文字列抽出コマンド「grep」、正規表現、メタデータフィルタリングといった幅広い検索技術を活用し、生成AIに必要な情報を提供する仕組み全体を意味する。
同様に、近年注目を集める「エージェント型検索」も誤解されがちだという。多くの場合、「AIがファイルシステムをgrepして必要なファイルを探す仕組み」と説明される。しかしロガット氏は、その本質は「エージェントに複数の検索ツールを与え、段階的かつ反復的に情報を探索させること」にあると説明する。
つまり、RAGとエージェント型検索は対立する概念ではなく、「どのように必要な情報へたどり着くか」を実現するための異なるアプローチと捉えるべきだという。
セマンティック検索は「キャッシュされた計算」である
特に興味深いのは、セマンティック検索を「事前に計算した結果を再利用する仕組み」として捉えるロガット氏の考え方だ。
AIコーディング支援ツールのClaude Codeは、ベクトル検索を利用せず、必要に応じてファイル検索や読み込みを繰り返す方式を採用している。エージェントはコードベースを理解するたびにgrepを実行し、ファイルを開き、内容を確認しながら次の探索先を決める。
この方式は事前準備が不要という利点がある一方で、同じコードベースに対して複数の開発者や複数のエージェントが同じ質問を繰り返す場合、そのたびに同じ探索処理を実行することになる。結果として、推論コストやトークン消費量が増加しやすい。
一方、Cursorは異なるアプローチを採用している。
Cursorはコードベースをあらかじめ解析し、チャンク分割と埋め込み(Embedding)を実施してセマンティック検索用のインデックスを生成する。さらにチーム開発の環境では、複数の署名データを階層構造でまとめてハッシュ値で管理する「Merkleツリー」を利用してコードベース間の差分を検出し、変更された部分だけを再処理することでインデックス作成コストを抑えている。
埋め込み生成やインデックス構築には初期コストが発生する。しかし一度構築したインデックスは、後続の検索時に何度でも再利用できる。
この仕組みをロガット氏は、「事前に計算して保存しておくキャッシュ」と表現する。エージェントは毎回コードベース全体を探索する必要がなくなり、必要な情報だけを即座に取得できるからだ。
Cursorによる社内評価では、セマンティック検索の導入によって回答精度が平均約13%向上した。モデルによっては改善幅が約24%に達したケースもある。これは、AIモデル自体を高性能化するだけでなく、「どのように情報を検索するか」がAIの性能を左右することを示している。
単純なRAGから「段階的検索」へ
もっとも、現在の先進的なAIシステムは、ベクトルDBを一度検索して結果をLLMに渡すだけの単純なRAGを採用しているわけではない。エージェントが検索結果を評価しながら複数回の検索を繰り返し、必要な情報を段階的に集める「Agentic Retrieval」へと進化しつつあるという。
2023年から2024年にかけて普及した初期のRAGは、「ベクトルDBを一度検索し、その結果をそのままコンテキストウィンドウに投入する」という比較的単純な構成だった。しかし、エージェントの活用が進んだ結果、この方式だけでは十分な性能を得られなくなっている。
現在の高度なシステムでは、エージェントが複数回にわたって推論を実施し、その過程でセマンティック検索や全文検索、フィルタリングなどを使い分けながら必要な情報を取得する。
つまり、「検索する」「結果を評価する」「不足している情報を特定する」「再検索する」というサイクルを繰り返しながら、徐々に必要なコンテキストを絞り込んでいく。
Turbopufferでは、この考え方を「Agentic Retrieval」と呼んでいるという。検索はもはや一度きりの処理ではなく、推論プロセスの一部として継続的に実行されるものになりつつある。
ロガット氏は、Googleのチーフサイエンティスト、ジェフ・ディーン氏の発言を紹介している。ディーン氏によると、LLMのコンテキストウィンドウが数兆トークン規模に拡大しても「一度に数兆トークンを処理するのではなく、適切な数百万トークンを見つけ出す」ための段階的な検索(Staged Retrieval)が不可欠だ。重要なのは、膨大な情報の中から「今必要な数百万トークン」を効率よく見つけ出すことだという。
本稿は、AI Engineerが2026年6月10日に公開した動画「RAG is dead, right??−Kuba Rogut, Turbopuffer」を基に作成しました。
Copyright © ITmedia, Inc. All Rights Reserved.