「LLMをPCで使いたい」「複数人で使いたい」を実現するには何が必要?オンプレミスシステムでLLMを動かす方法【後編】

技術革新が進み、LLMをクラウドサービスや自社データセンターではなく、手元のPCで動かすことが技術的に可能になった。何をすれば実現できるのか。複数人での利用時に発生する問題点を解消できるツールとは。

2025年01月30日 05時00分 公開
[Marius SandbuTechTarget]

関連キーワード

GPU | 人工知能 | 機械学習 | オンプレミス


 クラウドサービスに頼らずローカルマシンでLLM(大規模言語モデル)を動かすことが現実的になってきた。社内LANでの運用はプライバシーの確保やインターネット接続なしでの利用につながる一方、運用面での課題をクリアしなければ実現は難しい。特に複数のエンドユーザーで利用する場合には、負荷分散のための工夫も必要になる。どのようなツールを活用すればよいのか。

手元のPCでLLMを動かすには?

 企業は専用のツールやサービスを活用して、エンドユーザーのデバイスでLLMを実行可能だ。これらのツールが提供するAPI(アプリケーションプログラミングインタフェース)を使用して、外部ソースから得た情報を用いてAIモデルの出力精度を高める手法「RAG」(Retrieval-Augmented Generation:検索拡張生成)を組み込んだアプリケーションを構築できる。

 オンプレミスシステムでLLMを実行するためのツールの例を以下に挙げる。

  • Ollama
  • GPT4All
  • LM Studio

 Ollamaは「macOS」「Linux」「Windows」で利用可能だ。リポジトリ(保管場所)から最適化されたLLMをダウンロードし、実行するためのCLI(コマンドラインインタフェース)を提供する。LLM実行アプリケーション「AnythingLLM」や、ソースコード生成AIアシスタント「Continue」などの外部ツールとの連携が可能だ。

マルチユーザー向けのLLM運用に役立つツール

 Ollamaは単一エンドユーザーでの利用には適するが、複数のエンドユーザーにサービスを提供する中央集約型システムで使うには、別のツールが必要だ。この場合、LLM用サーバソフトウェア「vLLM」や、機械学習用サーバソフトウェア「NVIDIA Triton Inference Server」といったツールを使うことになる。

 vLLMは、単一GPUに加えて、「テンソル並列処理」という技術で、大規模なLLMを複数のGPUに分散させ、複数サーバやGPUを使う構成でもLLMを実行できる。コンピュータがGPUを搭載していない場合は、CPUを使ってLLMを動かすことも可能だ。

 テンソル並列処理が必要になる場面を考えてみよう。「NVIDIA H200 Tensor Core GPU」のメモリ容量は141GBと比較的大容量だが、大規模LLMを格納するには不十分な場合がある。そのため複数のGPUを組み合わせ、テンソル並列処理を活用する必要がある。複数のノードにまたがる大規模な構成では、サーバ間での高速な通信が不可欠だ。可能であれば、サーバ同士を接続するインターコネクト技術「InfiniBand」といった技術を採用するとよい。

 vLLMはコンテナオーケストレーションツール「Kubernetes」と組み合わせて使うことができ、スケーラビリティや高可用性といったKubernetesの利点を生かした推論サービスを構築できる。フレームワーク(プログラム部品やドキュメントの集合体)「Ray」を使えば、複数サーバでの推論が可能になる。Rayはプログラミング言語「Python」で開発されたAIアプリケーションでの利用を想定したフレームワークだ。

 Kubernetesを使ってvLLMを運用する際、vLLMは複数の独立したコンテナとして動作し、それぞれが異なるネットワークアドレスで通信を受け付ける。このため、エンドユーザーからのリクエストを適切に各コンテナに振り分ける負荷分散(ロードバランシング)が重要になる。これにはKubernetesの標準機能であるHTTPロードバランシング機能や、「LiteLLM」などの専用プロキシサービスを使うとよい。NVIDIAが提供する、各コンテナがホストマシンのGPUを利用できるようにするためのプラグインをインストールすることも不可欠だ。

 vLLMを導入することで、企業は「LangChain」などのフレームワークを用いて独自アプリケーションやサービスを構築できるようになる。同じシステムを用いてLLMをファインチューニング(特定用途向けの小規模データセットを用いた調整)することも可能だ。

 複数ユーザーで利用するLLMを稼働させるための別の選択肢として「NVIDIA AI Enterprise」がある。NVIDIA AI EnterpriseはRayを含むvLLMと同様の機能、サービス群を提供する一方、商用サービスであるため、コストがかかる点には注意しなければならない。

TechTarget発 世界のインサイト&ベストプラクティス

米国TechTargetの豊富な記事の中から、さまざまな業種や職種に関する動向やビジネスノウハウなどを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

From Informa TechTarget

お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。

ITmedia マーケティング新着記事

news214.jpg

トラフィック1300%増、生成AIがEコマースを変える
アドビは、2024年のホリデーシーズンのオンラインショッピングデータを公開した。

news129.jpg

「ドメインリスト貸し」は何がマズい? サイトの評判の不正使用について解説
「サイトの評判の不正使用」について理解し、正しい対策が取れるにしましょう。

news046.jpg

代理店にもAIにも「丸投げ」はダメ 成果報酬型マーケティングを成功させるポイントは?
「成果報酬型マーケティング」を実現する上でインターネット広告業界が直面する課題とは...