検索
特集/連載

「パブリックLLM」を使いたくない企業の“切実な事情”とは開発者のためのLLM入門【後編】

企業がLLMを活用する際の選択として、“パブリックLLM”ではなく、独自データを用いてトレーニングする「プライベートLLM」に関心が集まり始めている。その背景には何があるのか。活用事例と併せて解説する。

Share
Tweet
LINE
Hatena

関連キーワード

人工知能 | API | Oracle(オラクル) | SAP


 テキストや画像などのデータを生成するAI(人工知能)技術「生成AI」とそのベースとなる大規模言語モデル(LLM)は、ビジネスの競争力を高めるための強力な武器になる。特にこれから企業が関心を寄せる可能性があるのが、“パブリックLLM”ではなく、LLMを自社専用にカスタマイズする「プライベートLLM」だ。その背景と、企業のプライベートLLM開発事例を紹介する。

なぜ企業は「パブリックLLM」を使いたくないのか

 パブリックLLMは、パブリックデータ(一般公開されたデータ)に基づいてトレーニングされたLLMを指す。パブリックLLMを使用する際、企業は大きく3つの懸念に直面する。

1.データプライバシーの懸念

 開発者はクラウドサービスで簡単にパブリックLLMを試すことができるが、データ漏えいを防ぐためには注意が必要だ。入力データやトレーニングに使用したデータはLLM提供者のサーバに送信され、処理されることが一般的だからだ。

 そのため、パブリックLLMを使用する際は、企業データや個人を特定できる情報を安易に使用しない方が賢明だ。LLMのトレーニングやテストを実施する場合、使用するデータが企業のデータポリシーに準拠しているか、データプライバシー規制に違反する可能性がないか確認する必要がある。

2.透明性の懸念

 LLMを意思決定システムに使用する場合、開発者は「説明可能性」について考慮する必要がある。独自のLLMはブラックボックスのようなもので、推論エンジンがどのような経緯で回答を導き出すのか、読み解くのが難しいからだ。

3.回答精度の懸念

 LLMの回答精度は、トレーニングデータの質に依存する。トレーニングに使用されるデータセットが完全性や一貫性に欠けている場合、バイアス(偏り)や、LLMが不正確な回答を出力する幻覚(ハルシネーション)といった問題が起こる可能性がある。このような問題を防ぐためには、ハイパーパラメーター(機械学習モデルのトレーニングに使う変数)や回答のニュアンスを調整する必要がある。

 パブリックLLMは膨大なパブリックデータに基づいて訓練されるが、企業の独自データにアクセスすることはできない。公開データに基づく推論エンジンは、業界特有のニュアンスや、ビジネスプロセスに関する情報を見逃す可能性がある。

 これら3つの懸念から、パブリックLLMの使用を禁止または制限している企業は少なくない。

 SAPの最高技術責任者(CTO)ユルゲン・ミュラー氏は、LLMの有用性を認める一方で、その制約がビジネスへの適用を難しくしていると指摘する。「特に、最新情報や企業固有データへのアクセスが欠如している傾向にあり、現場への導入については慎重に検討する必要がある」(ミュラー氏)

プライベートLLMでパブリックLLMのリスクを回避

 健全なLLM活用には、データ漏えい対策や、データの一貫性および完全性の確保が必要だ。このような事情を踏まえて、企業はプライベートLLMに関心を寄せることがある。パブリックLLMと企業独自のデータを組み合わせ、回答精度の向上や安全なLLM利用につなげることができる。

 コンサルティング企業PricewaterhouseCoopers(PwC)は、プライベートLLMを構築した企業の一つだ。同社が開発した税務AIアシスタントツールは、判例や法律などの情報を基にトレーニングされている。同社独自の知的財産データと、各情報源を参照する。

 税制の変更を反映するために、データは定期的に更新される。PwCは、「開発したLLMは一般的なパブリックLLMと比べて、税務領域における回答精度が大幅に優れている」と説明する。このLLMは参照元データの情報も提供するため、税務における透明性や正確性を確保できる。

Computer Weekly発 世界に学ぶIT導入・活用術

米国TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る