「パブリックLLM」を使いたくない企業の“切実な事情”とは：開発者のためのLLM入門【後編】

企業がLLMを活用する際の選択として、“パブリックLLM”ではなく、独自データを用いてトレーニングする「プライベートLLM」に関心が集まり始めている。その背景には何があるのか。活用事例と併せて解説する。

≫ 2024年05月29日 07時30分公開

[Cliff Saran，TechTarget]

なぜ企業は「パブリックLLM」を使いたくないのか

併せて読みたいお薦め記事

連載：開発者のためのLLM入門

前編：「LLM（大規模言語モデル）選び」の“基本の基”とは？

生成AIのリスクを解説

　パブリックLLMは、パブリックデータ（一般公開されたデータ）に基づいてトレーニングされたLLMを指す。パブリックLLMを使用する際、企業は大きく3つの懸念に直面する。

1．データプライバシーの懸念

　開発者はクラウドサービスで簡単にパブリックLLMを試すことができるが、データ漏えいを防ぐためには注意が必要だ。入力データやトレーニングに使用したデータはLLM提供者のサーバに送信され、処理されることが一般的だからだ。

　そのため、パブリックLLMを使用する際は、企業データや個人を特定できる情報を安易に使用しない方が賢明だ。LLMのトレーニングやテストを実施する場合、使用するデータが企業のデータポリシーに準拠しているか、データプライバシー規制に違反する可能性がないか確認する必要がある。

2．透明性の懸念

　LLMを意思決定システムに使用する場合、開発者は「説明可能性」について考慮する必要がある。独自のLLMはブラックボックスのようなもので、推論エンジンがどのような経緯で回答を導き出すのか、読み解くのが難しいからだ。

3．回答精度の懸念

　LLMの回答精度は、トレーニングデータの質に依存する。トレーニングに使用されるデータセットが完全性や一貫性に欠けている場合、バイアス（偏り）や、LLMが不正確な回答を出力する幻覚（ハルシネーション）といった問題が起こる可能性がある。このような問題を防ぐためには、ハイパーパラメーター（機械学習モデルのトレーニングに使う変数）や回答のニュアンスを調整する必要がある。

　パブリックLLMは膨大なパブリックデータに基づいて訓練されるが、企業の独自データにアクセスすることはできない。公開データに基づく推論エンジンは、業界特有のニュアンスや、ビジネスプロセスに関する情報を見逃す可能性がある。

　これら3つの懸念から、パブリックLLMの使用を禁止または制限している企業は少なくない。

　SAPの最高技術責任者（CTO）ユルゲン・ミュラー氏は、LLMの有用性を認める一方で、その制約がビジネスへの適用を難しくしていると指摘する。「特に、最新情報や企業固有データへのアクセスが欠如している傾向にあり、現場への導入については慎重に検討する必要がある」（ミュラー氏）

プライベートLLMでパブリックLLMのリスクを回避

　健全なLLM活用には、データ漏えい対策や、データの一貫性および完全性の確保が必要だ。このような事情を踏まえて、企業はプライベートLLMに関心を寄せることがある。パブリックLLMと企業独自のデータを組み合わせ、回答精度の向上や安全なLLM利用につなげることができる。

　コンサルティング企業PricewaterhouseCoopers（PwC）は、プライベートLLMを構築した企業の一つだ。同社が開発した税務AIアシスタントツールは、判例や法律などの情報を基にトレーニングされている。同社独自の知的財産データと、各情報源を参照する。

　税制の変更を反映するために、データは定期的に更新される。PwCは、「開発したLLMは一般的なパブリックLLMと比べて、税務領域における回答精度が大幅に優れている」と説明する。このLLMは参照元データの情報も提供するため、税務における透明性や正確性を確保できる。

Computer Weekly発世界に学ぶIT導入・活用術

米国TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。

TechTargetジャパントップエンタープライズAI