生成AIがクラウドではなく「ローカルPC」でどこまで動くのか検証してみたAIの業務活用、どこまでできる?【前編】

LLMをPCで動かす時代が来た。実際にIT記者がローカルPCで複数のLLMを検証してみた。ハードウェアの最適な構成を探った内容と併せて紹介する。

2025年05月13日 07時00分 公開
[Yann SerraTechTarget]

関連キーワード

人工知能


 生成AI(AI:人工知能)を用いた作業効率化が進む一方で、クラウドサービス経由でのAI利用には、回数制限やコスト、セキュリティの懸念といった壁が存在する。こうした制約を回避する選択肢として、手元のPCでLLM(大規模言語モデル)を稼働させる方法が注目されている。

 本稿は、ローカルLLM(手元のPCで動かすLLM)がどれだけ使えるのか、その有効性を検証した内容を紹介する。検証では、無料ダウンロードが可能な以下のLLMを個人のPC上で稼働させ、動作や出力の品質を試した。

  • Googleの「Gemma 3」
  • Meta Platformsの「Llama 3.3」
  • Anthropicの「Claude 3.7 Sonnet」
  • Mistralの「Mistral」「Mistral Small 3.1」「Mistral Nemo」「Mixtral」
  • IBMの「Granite 3.2」
  • Alibabaの「Qwen 2.5」
  • DeepSeekの「DeepSeek R1」(※)

※厳密には、DeepSeek-R1の蒸留モデル。蒸留とは、大規模モデルから学習した知識を、小規模モデルの訓練に活用する手法。ここでは、LlamaおよびQwenといったオープンソースモデルをベースに、DeepSeek-R1の推論パターンを学習させたもの。

 今回の検証では、「PCでLLMを安定稼働させることができるのかどうか」「実用に足るアウトプットが得られるのかどうか」の2点が大きな焦点となった。その検証結果について解説する。

LLMは「ローカルPC」でどこまで動くのか検証してみた

会員登録(無料)が必要です

 今回は、米Informa TechTargetがフランスで展開するIT専門メディア「LeMagIT」の編集部が、業務におけるローカルLLM活用の有効性を検証。記者が取材中に録音した音声をAIツールに渡し、それを記事として公開できる形に変換してもらった。

 検証では、PCでLLMが使えるようになるソフトウェア「LM Studio」を使用した。LM StudioにはLLMを直接ダウンロードする機能があり、無料で利用できるLLMをAI開発プラットフォーム「Hugging Face」からダウンロードした。

 まずLLMに対し、記事の書き方を説明するプロンプト(AIモデルに対する指示)を約1500トークン分投入する。トークンはテキストデータを処理する際の基本的な単位で、1500トークンは英語で約6000文字、雑誌約2ページに相当する。

 続けて、45分程度のインタビュー音声を文字起こししたテキストを、約1万1000トークン分追加で投入する。

 これだけのトークン量となると、一般的なLLMの無料利用枠を大幅に超えてしまう。そこで有効なのが、LLMをPCにダウンロードして実行する方法だ。これにより、大規模なAIモデルでも、処理コストを抑えつつ活用できる。

ローカルLLM活用ではメモリ量が鍵に

 PCにおけるLLMの動作は、使用可能なメモリ量に大きく依存する。出力品質を損なわずに処理速度を高める方法は、クロック周波数の高いSoC(System on a Chip)もしくはコア数の多いSoCを搭載するPCを選択することだ。

 検証では、使用したLLMのうちで最も高性能なLLMはGemma 3の「27B Q8_0」バージョンだった。以下の構成で、毎秒6.82トークンの処理速度を実現した。

  • 270億のパラメーター(AIモデルの振る舞いを決定する変数)を8bitに量子化(圧縮)してメモリ消費量を抑制
  • AppleのPC「Mac」で、同社のSoC「M1 Max」と64GBのRAM(Random Access Memory)を搭載するモデルで実行
  • 48GBのメモリを、一般的な処理の制御を担うCPU(中央演算処理装置)コア、並列処理による計算を担うGPU(グラフィックス処理装置)コア、AI処理に特化したNPU(ニューラル処理装置)コアで共有
  • コンテキストウィンドウ(生成AIがやりとりの中で保持する情報量)は3万2000トークン、投入したプロンプトは1万5000トークン

 一方この条件下では、メモリの使用量が非常に大きくなるため、よりパラメーター数の多いLLMは読み込み時点でエラーになったり、出力が途中で途切れてしまったりする場合がある。LLMのパラメーター数を減らせばメモリ消費量は抑えられるが、出力品質は低下し、繰り返し表現や曖昧な記述が目立つようになる。パラメーターをより少ないbit数に量子化すれば処理速度は向上するものの、文法ミスや造語の混入など、出力品質の低下は避けられない。

 プロンプトがメモリ容量を圧迫するようであれば、パラメーター数の少ないLLMを選択するのが現実的だ。ただしその代償として、出力品質は妥協する必要がある。

ローカルAIに適したアーキテクチャとは

 専門家によれば、生成AIを個人の端末で効果的に動作させるためには、全てのコアが同一のRAMに同時にアクセスできるアーキテクチャが最適だという。具体的には、CPU、GPU、NPUなどの各プロセッサが物理的および論理的に同一のメモリアドレス空間(メモリアドレスによってアクセスできるメモリ領域)を共有する、SoCプロセッサを搭載した端末が該当する。この構成では全コアが共有メモリに直接アクセスでき、データの重複コピーを必要としない。

 一方、以下のようなアーキテクチャでは、各コアが同じデータを保持する複製メモリを確保する必要があり、その分だけRAMの使用効率が下がってしまう。

  • 外部GPUが専用のメモリとして「VRAM」(Video RAM)を搭載している場合
  • SoCを採用していても、CPU、GPU、NPUがRAMのそれぞれの専用領域にしかアクセスできない場合

 例えば、Appleのチップ「M」シリーズでは、48GBの共有RAMを搭載していれば、270億パラメーターのLLMを8bitに量子化して安定して実行できる。一方、OS「Windows」搭載マシンで同じく48GBのRAMを搭載していても、24GBがCPU専用、残り24GBがGPU専用に分かれている構成では、実質的に130億パラメーター程度が限界となる。

 M1 Max搭載のMacでローカルLLMの実行が成功した理由は、M1 Maxがユニファイドメモリ(UMA)を備えたSoCであり、すべてのコアが統一されたメモリアクセスを可能にすることにあったと考えられる。

 このアーキテクチャを採用する動きは広がりつつあり、2025年1月にはAdvanced Micro Devices(AMD)がプロセッサ「Ryzen AI Max」シリーズでUMAを導入している。Intelの「Core Ultra」シリーズはCPU、GPU、NPUを内包したSoCではあるものの、現時点ではUMAによる完全なメモリアクセスは実現していない。


 次回は、記者の業務はAIツールを活用することで軽減されたのかどうかを解説する。

Computer Weekly発 世界に学ぶIT導入・活用術

米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

新着ホワイトペーパー

製品レビュー ストックマーク株式会社

AI技術を使って必要な情報を自動で抽出/要約する「情報収集サービス」の実力

日々情報が増え続ける今、業務に必要な全ての情報を、社内外の関連ニュースや論文、特許情報などから収集していくのは至難の業だ。そこで業務に必要な情報を着実に届けるための仕組み作りに役立つサービスを紹介する。

製品資料 ゼットスケーラー株式会社

セキュリティリーダー必見:データセキュリティの複雑化によるリスクの解消方法             

クラウド利用の拡大に伴い、データが分散・肥大化する中、従来のセキュリティ対策の限界が見え始めている。データの所在や利用状況を可視化し、リスクを事前に把握して対応することが求められる今、有効となる新たなアプローチを探る。

市場調査・トレンド ゼットスケーラー株式会社

AI/MLトランザクション分析から読み取る、企業のリスク管理とセキュリティ課題

AIの活用が急速に進む一方で、セキュリティリスクの増大が懸念され、企業の対応が急務となっている。本資料では、2024年2~12月までの5365億件のAI/ML(機械学習)トランザクションの分析に基づき、その実態と対策を多角的に考察する。

事例 富士通株式会社

富士通が実践、AI時代に最適な設計プロセスを実現する方法

製造業の設計現場では、設計プロセスの複雑化などの課題が山積している。こうした中、注目を集めているのが生成AIの活用だ。本資料では、生成AIがもたらす設計業務の未来について、詳しく解説する。

製品資料 富士通株式会社

チャットbotだけで終わらせない、生成AIの“高度な活用”を実現するには?

多くの企業が業務における生成AIの有用性を実感する一方、高度な活用を目指すに当たり、壁に突き当たっているケースは多い。既存の業務やシステムと生成AIをスムーズに組み合わせ、自社に合った形で活用するには、どうすればよいのか。

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...