「パブリックLLM」を使いたくない企業の“切実な事情”とは開発者のためのLLM入門【後編】

企業がLLMを活用する際の選択として、“パブリックLLM”ではなく、独自データを用いてトレーニングする「プライベートLLM」に関心が集まり始めている。その背景には何があるのか。活用事例と併せて解説する。

2024年05月29日 07時30分 公開
[Cliff SaranTechTarget]

関連キーワード

人工知能 | API | Oracle(オラクル) | SAP


 テキストや画像などのデータを生成するAI(人工知能)技術「生成AI」とそのベースとなる大規模言語モデル(LLM)は、ビジネスの競争力を高めるための強力な武器になる。特にこれから企業が関心を寄せる可能性があるのが、“パブリックLLM”ではなく、LLMを自社専用にカスタマイズする「プライベートLLM」だ。その背景と、企業のプライベートLLM開発事例を紹介する。

なぜ企業は「パブリックLLM」を使いたくないのか

 パブリックLLMは、パブリックデータ(一般公開されたデータ)に基づいてトレーニングされたLLMを指す。パブリックLLMを使用する際、企業は大きく3つの懸念に直面する。

1.データプライバシーの懸念

 開発者はクラウドサービスで簡単にパブリックLLMを試すことができるが、データ漏えいを防ぐためには注意が必要だ。入力データやトレーニングに使用したデータはLLM提供者のサーバに送信され、処理されることが一般的だからだ。

 そのため、パブリックLLMを使用する際は、企業データや個人を特定できる情報を安易に使用しない方が賢明だ。LLMのトレーニングやテストを実施する場合、使用するデータが企業のデータポリシーに準拠しているか、データプライバシー規制に違反する可能性がないか確認する必要がある。

2.透明性の懸念

 LLMを意思決定システムに使用する場合、開発者は「説明可能性」について考慮する必要がある。独自のLLMはブラックボックスのようなもので、推論エンジンがどのような経緯で回答を導き出すのか、読み解くのが難しいからだ。

3.回答精度の懸念

 LLMの回答精度は、トレーニングデータの質に依存する。トレーニングに使用されるデータセットが完全性や一貫性に欠けている場合、バイアス(偏り)や、LLMが不正確な回答を出力する幻覚(ハルシネーション)といった問題が起こる可能性がある。このような問題を防ぐためには、ハイパーパラメーター(機械学習モデルのトレーニングに使う変数)や回答のニュアンスを調整する必要がある。

 パブリックLLMは膨大なパブリックデータに基づいて訓練されるが、企業の独自データにアクセスすることはできない。公開データに基づく推論エンジンは、業界特有のニュアンスや、ビジネスプロセスに関する情報を見逃す可能性がある。

 これら3つの懸念から、パブリックLLMの使用を禁止または制限している企業は少なくない。

 SAPの最高技術責任者(CTO)ユルゲン・ミュラー氏は、LLMの有用性を認める一方で、その制約がビジネスへの適用を難しくしていると指摘する。「特に、最新情報や企業固有データへのアクセスが欠如している傾向にあり、現場への導入については慎重に検討する必要がある」(ミュラー氏)

プライベートLLMでパブリックLLMのリスクを回避

 健全なLLM活用には、データ漏えい対策や、データの一貫性および完全性の確保が必要だ。このような事情を踏まえて、企業はプライベートLLMに関心を寄せることがある。パブリックLLMと企業独自のデータを組み合わせ、回答精度の向上や安全なLLM利用につなげることができる。

 コンサルティング企業PricewaterhouseCoopers(PwC)は、プライベートLLMを構築した企業の一つだ。同社が開発した税務AIアシスタントツールは、判例や法律などの情報を基にトレーニングされている。同社独自の知的財産データと、各情報源を参照する。

 税制の変更を反映するために、データは定期的に更新される。PwCは、「開発したLLMは一般的なパブリックLLMと比べて、税務領域における回答精度が大幅に優れている」と説明する。このLLMは参照元データの情報も提供するため、税務における透明性や正確性を確保できる。

Computer Weekly発 世界に学ぶIT導入・活用術

米国TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

髫エ�ス�ス�ー鬨セ�ケ�つ€驛「譎擾スク蜴・�。驛「�ァ�ス�、驛「譎冗樟�ス�ス驛「譎「�ス�シ驛「譏懶スサ�」�ス�ス

製品資料 グーグル・クラウド・ジャパン合同会社

約80%の企業でAIが定着していない? その理由と成功させるためのポイントとは

生成AIを活用して業務や顧客体験の再構築を進める動きが活性化しているが、その多くが、PoCやラボ環境の段階にとどまっている。なぜなら、生成AIの可能性を最大限に引き出すための、インフラのパフォーマンスが不十分だからだ。

市場調査・トレンド グーグル・クラウド・ジャパン合同会社

ソフトウェア開発ライフサイクルにおける、生成AI活用のポイントを考察する

昨今のソフトウェア開発では、AIコーディングアシスタントの活用が主流になっている。しかし、最適なコーディングアシストツールは、開発者や企業によって異なるという。導入の際は、どのようなポイントに注意すればよいのか。

製品資料 グーグル・クラウド・ジャパン合同会社

データベースをモダナイズし、生成AIを最大限に活用する方法とは?

生成AIの活用にはデータベースが重要となるが、従来のデータベースは最新テクノロジーに対応できないなどの課題がある。本資料では、データベースをモダナイズし、生成AIを用いてビジネスイノベーションを生み出すための方法を探る。

製品資料 グーグル・クラウド・ジャパン合同会社

検索体験と結果の質をどう高める? ユーザーに喜ばれる検索体験を実現する方法

ビジネスにおいて、検索体験およびその結果の質の向上が重要なテーマとなっている。顧客はもちろん、自社の従業員に対しても、実用的な答えをより迅速に、手間なく入手できる環境の整備が求められている。

事例 グーグル・クラウド・ジャパン合同会社

検索の効率化からデータ活用まで、生成AIの業務組み込み事例5選

登場以来ビジネスへの活用方法が模索されてきた生成AI。近年では業務組み込みにおける具体的な成功例が数多く報告されている。本資料では、5件の生成AI活用事例を交えて、業務に組み込む上での具体的なアプローチを解説する。

郢晏生ホヲ郢敖€郢晢スシ郢ァ�ウ郢晢スウ郢晢ソスホヲ郢晢ソスPR

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

「パブリックLLM」を使いたくない企業の“切実な事情”とは:開発者のためのLLM入門【後編】 - TechTargetジャパン エンタープライズAI 隴�スー騾ケツ€髫ェ蛟�スコ�ス

TechTarget郢ァ�ク郢晢ス」郢昜サ」ホヲ 隴�スー騾ケツ€髫ェ蛟�スコ�ス

ITmedia マーケティング新着記事

news025.png

「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。

news014.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news046.png

「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。