生成AIがクラウドではなく「ローカルPC」でどこまで動くのか検証してみた:AIの業務活用、どこまでできる?【前編】
LLMをPCで動かす時代が来た。実際にIT記者がローカルPCで複数のLLMを検証してみた。ハードウェアの最適な構成を探った内容と併せて紹介する。
生成AI(AI:人工知能)を用いた作業効率化が進む一方で、クラウドサービス経由でのAI利用には、回数制限やコスト、セキュリティの懸念といった壁が存在する。こうした制約を回避する選択肢として、手元のPCでLLM(大規模言語モデル)を稼働させる方法が注目されている。
本稿は、ローカルLLM(手元のPCで動かすLLM)がどれだけ使えるのか、その有効性を検証した内容を紹介する。検証では、無料ダウンロードが可能な以下のLLMを個人のPC上で稼働させ、動作や出力の品質を試した。
- Googleの「Gemma 3」
- Meta Platformsの「Llama 3.3」
- Anthropicの「Claude 3.7 Sonnet」
- Mistralの「Mistral」「Mistral Small 3.1」「Mistral Nemo」「Mixtral」
- IBMの「Granite 3.2」
- Alibabaの「Qwen 2.5」
- DeepSeekの「DeepSeek R1」(※)
※厳密には、DeepSeek-R1の蒸留モデル。蒸留とは、大規模モデルから学習した知識を、小規模モデルの訓練に活用する手法。ここでは、LlamaおよびQwenといったオープンソースモデルをベースに、DeepSeek-R1の推論パターンを学習させたもの。
今回の検証では、「PCでLLMを安定稼働させることができるのかどうか」「実用に足るアウトプットが得られるのかどうか」の2点が大きな焦点となった。その検証結果について解説する。
LLMは「ローカルPC」でどこまで動くのか検証してみた
併せて読みたいお薦め記事
ローカルPCでのAI利用
今回は、米Informa TechTargetがフランスで展開するIT専門メディア「LeMagIT」の編集部が、業務におけるローカルLLM活用の有効性を検証。記者が取材中に録音した音声をAIツールに渡し、それを記事として公開できる形に変換してもらった。
検証では、PCでLLMが使えるようになるソフトウェア「LM Studio」を使用した。LM StudioにはLLMを直接ダウンロードする機能があり、無料で利用できるLLMをAI開発プラットフォーム「Hugging Face」からダウンロードした。
まずLLMに対し、記事の書き方を説明するプロンプト(AIモデルに対する指示)を約1500トークン分投入する。トークンはテキストデータを処理する際の基本的な単位で、1500トークンは英語で約6000文字、雑誌約2ページに相当する。
続けて、45分程度のインタビュー音声を文字起こししたテキストを、約1万1000トークン分追加で投入する。
これだけのトークン量となると、一般的なLLMの無料利用枠を大幅に超えてしまう。そこで有効なのが、LLMをPCにダウンロードして実行する方法だ。これにより、大規模なAIモデルでも、処理コストを抑えつつ活用できる。
ローカルLLM活用ではメモリ量が鍵に
PCにおけるLLMの動作は、使用可能なメモリ量に大きく依存する。出力品質を損なわずに処理速度を高める方法は、クロック周波数の高いSoC(System on a Chip)もしくはコア数の多いSoCを搭載するPCを選択することだ。
検証では、使用したLLMのうちで最も高性能なLLMはGemma 3の「27B Q8_0」バージョンだった。以下の構成で、毎秒6.82トークンの処理速度を実現した。
- 270億のパラメーター(AIモデルの振る舞いを決定する変数)を8bitに量子化(圧縮)してメモリ消費量を抑制
- AppleのPC「Mac」で、同社のSoC「M1 Max」と64GBのRAM(Random Access Memory)を搭載するモデルで実行
- 48GBのメモリを、一般的な処理の制御を担うCPU(中央演算処理装置)コア、並列処理による計算を担うGPU(グラフィックス処理装置)コア、AI処理に特化したNPU(ニューラル処理装置)コアで共有
- コンテキストウィンドウ(生成AIがやりとりの中で保持する情報量)は3万2000トークン、投入したプロンプトは1万5000トークン
一方この条件下では、メモリの使用量が非常に大きくなるため、よりパラメーター数の多いLLMは読み込み時点でエラーになったり、出力が途中で途切れてしまったりする場合がある。LLMのパラメーター数を減らせばメモリ消費量は抑えられるが、出力品質は低下し、繰り返し表現や曖昧な記述が目立つようになる。パラメーターをより少ないbit数に量子化すれば処理速度は向上するものの、文法ミスや造語の混入など、出力品質の低下は避けられない。
プロンプトがメモリ容量を圧迫するようであれば、パラメーター数の少ないLLMを選択するのが現実的だ。ただしその代償として、出力品質は妥協する必要がある。
ローカルAIに適したアーキテクチャとは
専門家によれば、生成AIを個人の端末で効果的に動作させるためには、全てのコアが同一のRAMに同時にアクセスできるアーキテクチャが最適だという。具体的には、CPU、GPU、NPUなどの各プロセッサが物理的および論理的に同一のメモリアドレス空間(メモリアドレスによってアクセスできるメモリ領域)を共有する、SoCプロセッサを搭載した端末が該当する。この構成では全コアが共有メモリに直接アクセスでき、データの重複コピーを必要としない。
一方、以下のようなアーキテクチャでは、各コアが同じデータを保持する複製メモリを確保する必要があり、その分だけRAMの使用効率が下がってしまう。
- 外部GPUが専用のメモリとして「VRAM」(Video RAM)を搭載している場合
- SoCを採用していても、CPU、GPU、NPUがRAMのそれぞれの専用領域にしかアクセスできない場合
例えば、Appleのチップ「M」シリーズでは、48GBの共有RAMを搭載していれば、270億パラメーターのLLMを8bitに量子化して安定して実行できる。一方、OS「Windows」搭載マシンで同じく48GBのRAMを搭載していても、24GBがCPU専用、残り24GBがGPU専用に分かれている構成では、実質的に130億パラメーター程度が限界となる。
M1 Max搭載のMacでローカルLLMの実行が成功した理由は、M1 Maxがユニファイドメモリ(UMA)を備えたSoCであり、すべてのコアが統一されたメモリアクセスを可能にすることにあったと考えられる。
このアーキテクチャを採用する動きは広がりつつあり、2025年1月にはAdvanced Micro Devices(AMD)がプロセッサ「Ryzen AI Max」シリーズでUMAを導入している。Intelの「Core Ultra」シリーズはCPU、GPU、NPUを内包したSoCではあるものの、現時点ではUMAによる完全なメモリアクセスは実現していない。
次回は、記者の業務はAIツールを活用することで軽減されたのかどうかを解説する。
Computer Weekly発 世界に学ぶIT導入・活用術
米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.