技術革新が進み、LLMをクラウドサービスや自社データセンターではなく、手元のPCで動かすことが技術的に可能になった。何をすれば実現できるのか。複数人での利用時に発生する問題点を解消できるツールとは。
クラウドサービスに頼らずローカルマシンでLLM(大規模言語モデル)を動かすことが現実的になってきた。社内LANでの運用はプライバシーの確保やインターネット接続なしでの利用につながる一方、運用面での課題をクリアしなければ実現は難しい。特に複数のエンドユーザーで利用する場合には、負荷分散のための工夫も必要になる。どのようなツールを活用すればよいのか。
企業は専用のツールやサービスを活用して、エンドユーザーのデバイスでLLMを実行可能だ。これらのツールが提供するAPI(アプリケーションプログラミングインタフェース)を使用して、外部ソースから得た情報を用いてAIモデルの出力精度を高める手法「RAG」(Retrieval-Augmented Generation:検索拡張生成)を組み込んだアプリケーションを構築できる。
オンプレミスシステムでLLMを実行するためのツールの例を以下に挙げる。
Ollamaは「macOS」「Linux」「Windows」で利用可能だ。リポジトリ(保管場所)から最適化されたLLMをダウンロードし、実行するためのCLI(コマンドラインインタフェース)を提供する。LLM実行アプリケーション「AnythingLLM」や、ソースコード生成AIアシスタント「Continue」などの外部ツールとの連携が可能だ。
Ollamaは単一エンドユーザーでの利用には適するが、複数のエンドユーザーにサービスを提供する中央集約型システムで使うには、別のツールが必要だ。この場合、LLM用サーバソフトウェア「vLLM」や、機械学習用サーバソフトウェア「NVIDIA Triton Inference Server」といったツールを使うことになる。
vLLMは、単一GPUに加えて、「テンソル並列処理」という技術で、大規模なLLMを複数のGPUに分散させ、複数サーバやGPUを使う構成でもLLMを実行できる。コンピュータがGPUを搭載していない場合は、CPUを使ってLLMを動かすことも可能だ。
テンソル並列処理が必要になる場面を考えてみよう。「NVIDIA H200 Tensor Core GPU」のメモリ容量は141GBと比較的大容量だが、大規模LLMを格納するには不十分な場合がある。そのため複数のGPUを組み合わせ、テンソル並列処理を活用する必要がある。複数のノードにまたがる大規模な構成では、サーバ間での高速な通信が不可欠だ。可能であれば、サーバ同士を接続するインターコネクト技術「InfiniBand」といった技術を採用するとよい。
vLLMはコンテナオーケストレーションツール「Kubernetes」と組み合わせて使うことができ、スケーラビリティや高可用性といったKubernetesの利点を生かした推論サービスを構築できる。フレームワーク(プログラム部品やドキュメントの集合体)「Ray」を使えば、複数サーバでの推論が可能になる。Rayはプログラミング言語「Python」で開発されたAIアプリケーションでの利用を想定したフレームワークだ。
Kubernetesを使ってvLLMを運用する際、vLLMは複数の独立したコンテナとして動作し、それぞれが異なるネットワークアドレスで通信を受け付ける。このため、エンドユーザーからのリクエストを適切に各コンテナに振り分ける負荷分散(ロードバランシング)が重要になる。これにはKubernetesの標準機能であるHTTPロードバランシング機能や、「LiteLLM」などの専用プロキシサービスを使うとよい。NVIDIAが提供する、各コンテナがホストマシンのGPUを利用できるようにするためのプラグインをインストールすることも不可欠だ。
vLLMを導入することで、企業は「LangChain」などのフレームワークを用いて独自アプリケーションやサービスを構築できるようになる。同じシステムを用いてLLMをファインチューニング(特定用途向けの小規模データセットを用いた調整)することも可能だ。
複数ユーザーで利用するLLMを稼働させるための別の選択肢として「NVIDIA AI Enterprise」がある。NVIDIA AI EnterpriseはRayを含むvLLMと同様の機能、サービス群を提供する一方、商用サービスであるため、コストがかかる点には注意しなければならない。
米国TechTargetの豊富な記事の中から、さまざまな業種や職種に関する動向やビジネスノウハウなどを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
DXが進み、レガシーシステムからの脱却が喫緊の課題となっている今。「ERP×ノーコードツール」のアプローチで基幹システムの刷新に取り組む企業が増えている。そのアプローチを推進するに当たってのポイントを解説する。
DXの本質は、デジタル技術を駆使して変化に適応する能力を身につけることにある。その手段の1つとして注目を集めているのが、ローコード/ノーコード開発ツールだ。京王グループなどの事例とともに、その特徴やメリットを紹介する。
DX人材の重要性が高まる中、ノーコードツールの活用によって業務改革と人材育成を両立しようとする動きが活発化している。年間約780時間の工数削減を実現した京セラをはじめとする5社の事例を基に、その実態を探る。
急速に進化するデジタル技術は、製造業などのものづくりの現場にもさまざまな恩恵をもたらしている。しかし、設備点検業務や棚卸業務などの立ち仕事や移動が多い現場では、いまだにアナログ業務が残存し、効率化の妨げとなっているという。
あらゆる業界でDXの重要性が増しているが、工場や倉庫の中にはデジタル化が後回しにされている隙間業務が多数ある。その理由を明らかにした上で、それらの業務をモバイルアプリでデジタル化し、現場DXを推進する9社の事例を紹介する。
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。