「LLMをPCで使いたい」「複数人で使いたい」を実現するには何が必要？：オンプレミスシステムでLLMを動かす方法【後編】

技術革新が進み、LLMをクラウドサービスや自社データセンターではなく、手元のPCで動かすことが技術的に可能になった。何をすれば実現できるのか。複数人での利用時に発生する問題点を解消できるツールとは。

≫ 2025年01月30日 05時00分公開

手元のPCでLLMを動かすには？

併せて読みたいお薦め記事

連載：オンプレミスシステムでLLMを動かす方法

LLMを知る

　企業は専用のツールやサービスを活用して、エンドユーザーのデバイスでLLMを実行可能だ。これらのツールが提供するAPI（アプリケーションプログラミングインタフェース）を使用して、外部ソースから得た情報を用いてAIモデルの出力精度を高める手法「RAG」（Retrieval-Augmented Generation：検索拡張生成）を組み込んだアプリケーションを構築できる。

　オンプレミスシステムでLLMを実行するためのツールの例を以下に挙げる。

Ollama
GPT4All
LM Studio

　Ollamaは「macOS」「Linux」「Windows」で利用可能だ。リポジトリ（保管場所）から最適化されたLLMをダウンロードし、実行するためのCLI（コマンドラインインタフェース）を提供する。LLM実行アプリケーション「AnythingLLM」や、ソースコード生成AIアシスタント「Continue」などの外部ツールとの連携が可能だ。

マルチユーザー向けのLLM運用に役立つツール

　Ollamaは単一エンドユーザーでの利用には適するが、複数のエンドユーザーにサービスを提供する中央集約型システムで使うには、別のツールが必要だ。この場合、LLM用サーバソフトウェア「vLLM」や、機械学習用サーバソフトウェア「NVIDIA Triton Inference Server」といったツールを使うことになる。

　vLLMは、単一GPUに加えて、「テンソル並列処理」という技術で、大規模なLLMを複数のGPUに分散させ、複数サーバやGPUを使う構成でもLLMを実行できる。コンピュータがGPUを搭載していない場合は、CPUを使ってLLMを動かすことも可能だ。

　テンソル並列処理が必要になる場面を考えてみよう。「NVIDIA H200 Tensor Core GPU」のメモリ容量は141GBと比較的大容量だが、大規模LLMを格納するには不十分な場合がある。そのため複数のGPUを組み合わせ、テンソル並列処理を活用する必要がある。複数のノードにまたがる大規模な構成では、サーバ間での高速な通信が不可欠だ。可能であれば、サーバ同士を接続するインターコネクト技術「InfiniBand」といった技術を採用するとよい。

　vLLMはコンテナオーケストレーションツール「Kubernetes」と組み合わせて使うことができ、スケーラビリティや高可用性といったKubernetesの利点を生かした推論サービスを構築できる。フレームワーク（プログラム部品やドキュメントの集合体）「Ray」を使えば、複数サーバでの推論が可能になる。Rayはプログラミング言語「Python」で開発されたAIアプリケーションでの利用を想定したフレームワークだ。

　Kubernetesを使ってvLLMを運用する際、vLLMは複数の独立したコンテナとして動作し、それぞれが異なるネットワークアドレスで通信を受け付ける。このため、エンドユーザーからのリクエストを適切に各コンテナに振り分ける負荷分散（ロードバランシング）が重要になる。これにはKubernetesの標準機能であるHTTPロードバランシング機能や、「LiteLLM」などの専用プロキシサービスを使うとよい。NVIDIAが提供する、各コンテナがホストマシンのGPUを利用できるようにするためのプラグインをインストールすることも不可欠だ。

　vLLMを導入することで、企業は「LangChain」などのフレームワークを用いて独自アプリケーションやサービスを構築できるようになる。同じシステムを用いてLLMをファインチューニング（特定用途向けの小規模データセットを用いた調整）することも可能だ。

　複数ユーザーで利用するLLMを稼働させるための別の選択肢として「NVIDIA AI Enterprise」がある。NVIDIA AI EnterpriseはRayを含むvLLMと同様の機能、サービス群を提供する一方、商用サービスであるため、コストがかかる点には注意しなければならない。

TechTarget発　世界のインサイト＆ベストプラクティス

米国TechTargetの豊富な記事の中から、さまざまな業種や職種に関する動向やビジネスノウハウなどを厳選してお届けします。

TechTargetジャパントップシステム開発