「生成AI+RAG」の“鬼門”を突破するための基礎知識とは:AI時代のデータベースの選び方【第4回】
RAGとベクトルデータベースが企業の注目を集める一方で、導入に伴う課題も顕在化している。本稿では、ベクトルデータベース導入の技術的課題を乗りこえるための取り組みや、今後のデータベース市場の動きを解説する。
テキストや画像を自動生成するAI(人工知能)技術「生成AI」と、そのベースとなる大規模言語モデル(LLM)の業務利用が広がりつつある。中でも企業の関心を集めるのが、外部データベースからの情報を検索してLLMの回答精度を高める手法「RAG」(検索拡張生成)だ。
RAGの実装では、テキストや文書、画像といった「非構造化データ」を効率的に扱える「ベクトルデータベース」を使う。ただ、ベクトルデータベースの導入においては幾つかの技術的ハードルが存在する。それは一体何なのか。
「RAG」の鬼門とは? 生成AIを使いこなすための基礎知識
併せて読みたいお薦め記事
連載:AI時代のデータベースの選び方
- 第1回:生成AI時代に「ベクトルデータベース」が脚光を浴びるのはなぜ?
- 第2回:RAGにも役立つ「ベクトルデータベース」とは? RDB、グラフDBとの違いは?
- 第3回:「生成AIとデータの関係」をより深く理解できる、“ベクトル”の基礎知識
AIスキルを身に付けるためのおすすめ記事
ベクトルデータベースは、ベクトル形式(数値のリストや配列)でデータを管理するデータベースだ。ベクトルデータベースは検索の際に、テキストや画像などのデータを数値に変換することで、数字を比較してデータ同士の類似性を計算し、検索できる。
データ分析ベンダーDAS42で主任コンサルタントを務めるジェフ・スプリンガー氏は、「ベクトルデータベースにおけるデータの扱いは、リレーショナルデータベースやSQLとは大きく異なり、専門的な知識や技術が求められる」と説明する。ベクトルデータベースを使いこなせる人材はまだ少ないのが現状だ。
コンサルティング企業PricewaterhouseCoopers(PwC)でデータおよびアナリティクスプリンシパルを務めるブレット・グリーンシュタイン氏は、ベクトルデータベースの技術的なハードルとして以下を挙げる。
- システムによるデータの可読性
- 非構造化データを扱う際は、ベクトル形式に変換して保存し、コンピュータなどの機械が効率的に検索処理できるようにインデックス化する必要がある。ベクトルは、データの種類や特性に応じて適切に管理する。
- ツールの成熟度
- ベクトルデータベースには、ロールベースでアクセス制御できるものもあるが、ツールや手法はまだ発展途上だ。利用可能な選択肢はあるものの、具体的な要件を検討し、適切なツールを選ぶことが重要だ。
- 新しい検索手法
- ベクトルデータベースでは、大規模な非構造化データを扱うことがあり、従来の検索手法では適切に処理できない場合もある。検索を最適化するためには、各ユースケースに合わせてインデックスを作成したり、データのチャンク化(小さな部分に分けて管理すること)をしたりする作業が必要だ。
スプリンガー氏は今後、リレーショナルデータベースとベクトルデータベースが統合することで、ユーザーの技術習得が容易になると予測する。例えば2023年6月、クラウドデータウェアハウス(DWH)ベンダーSnowflakeはベクトルデータベースベンダーKXとのパートナーシップ締結を発表した。こうした取り組みは、新技術の導入における課題を軽減させる可能性がある。
コンサルティング企業Nuvalence(2024年4月にErnst & Young Globalに統合)の共同設立者であるシンクレア・シュラー氏は、「複数のデータベースを併用することで、業務に適するツールを選べる」と話す。構造化データは多くのビジネスにとって欠かせないが、非構造化データを扱うベクトルデータベースやグラフデータベースも併せて活用することで、効果的で包括的なデータ管理と分析が可能になるだろう。
TechTarget発 先取りITトレンド
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.