LLMをPCで動かす時代が来た。実際にIT記者がローカルPCで複数のLLMを検証してみた。ハードウェアの最適な構成を探った内容と併せて紹介する。
生成AI(AI:人工知能)を用いた作業効率化が進む一方で、クラウドサービス経由でのAI利用には、回数制限やコスト、セキュリティの懸念といった壁が存在する。こうした制約を回避する選択肢として、手元のPCでLLM(大規模言語モデル)を稼働させる方法が注目されている。
本稿は、ローカルLLM(手元のPCで動かすLLM)がどれだけ使えるのか、その有効性を検証した内容を紹介する。検証では、無料ダウンロードが可能な以下のLLMを個人のPC上で稼働させ、動作や出力の品質を試した。
※厳密には、DeepSeek-R1の蒸留モデル。蒸留とは、大規模モデルから学習した知識を、小規模モデルの訓練に活用する手法。ここでは、LlamaおよびQwenといったオープンソースモデルをベースに、DeepSeek-R1の推論パターンを学習させたもの。
今回の検証では、「PCでLLMを安定稼働させることができるのかどうか」「実用に足るアウトプットが得られるのかどうか」の2点が大きな焦点となった。その検証結果について解説する。
今回は、米Informa TechTargetがフランスで展開するIT専門メディア「LeMagIT」の編集部が、業務におけるローカルLLM活用の有効性を検証。記者が取材中に録音した音声をAIツールに渡し、それを記事として公開できる形に変換してもらった。
検証では、PCでLLMが使えるようになるソフトウェア「LM Studio」を使用した。LM StudioにはLLMを直接ダウンロードする機能があり、無料で利用できるLLMをAI開発プラットフォーム「Hugging Face」からダウンロードした。
まずLLMに対し、記事の書き方を説明するプロンプト(AIモデルに対する指示)を約1500トークン分投入する。トークンはテキストデータを処理する際の基本的な単位で、1500トークンは英語で約6000文字、雑誌約2ページに相当する。
続けて、45分程度のインタビュー音声を文字起こししたテキストを、約1万1000トークン分追加で投入する。
これだけのトークン量となると、一般的なLLMの無料利用枠を大幅に超えてしまう。そこで有効なのが、LLMをPCにダウンロードして実行する方法だ。これにより、大規模なAIモデルでも、処理コストを抑えつつ活用できる。
PCにおけるLLMの動作は、使用可能なメモリ量に大きく依存する。出力品質を損なわずに処理速度を高める方法は、クロック周波数の高いSoC(System on a Chip)もしくはコア数の多いSoCを搭載するPCを選択することだ。
検証では、使用したLLMのうちで最も高性能なLLMはGemma 3の「27B Q8_0」バージョンだった。以下の構成で、毎秒6.82トークンの処理速度を実現した。
一方この条件下では、メモリの使用量が非常に大きくなるため、よりパラメーター数の多いLLMは読み込み時点でエラーになったり、出力が途中で途切れてしまったりする場合がある。LLMのパラメーター数を減らせばメモリ消費量は抑えられるが、出力品質は低下し、繰り返し表現や曖昧な記述が目立つようになる。パラメーターをより少ないbit数に量子化すれば処理速度は向上するものの、文法ミスや造語の混入など、出力品質の低下は避けられない。
プロンプトがメモリ容量を圧迫するようであれば、パラメーター数の少ないLLMを選択するのが現実的だ。ただしその代償として、出力品質は妥協する必要がある。
専門家によれば、生成AIを個人の端末で効果的に動作させるためには、全てのコアが同一のRAMに同時にアクセスできるアーキテクチャが最適だという。具体的には、CPU、GPU、NPUなどの各プロセッサが物理的および論理的に同一のメモリアドレス空間(メモリアドレスによってアクセスできるメモリ領域)を共有する、SoCプロセッサを搭載した端末が該当する。この構成では全コアが共有メモリに直接アクセスでき、データの重複コピーを必要としない。
一方、以下のようなアーキテクチャでは、各コアが同じデータを保持する複製メモリを確保する必要があり、その分だけRAMの使用効率が下がってしまう。
例えば、Appleのチップ「M」シリーズでは、48GBの共有RAMを搭載していれば、270億パラメーターのLLMを8bitに量子化して安定して実行できる。一方、OS「Windows」搭載マシンで同じく48GBのRAMを搭載していても、24GBがCPU専用、残り24GBがGPU専用に分かれている構成では、実質的に130億パラメーター程度が限界となる。
M1 Max搭載のMacでローカルLLMの実行が成功した理由は、M1 Maxがユニファイドメモリ(UMA)を備えたSoCであり、すべてのコアが統一されたメモリアクセスを可能にすることにあったと考えられる。
このアーキテクチャを採用する動きは広がりつつあり、2025年1月にはAdvanced Micro Devices(AMD)がプロセッサ「Ryzen AI Max」シリーズでUMAを導入している。Intelの「Core Ultra」シリーズはCPU、GPU、NPUを内包したSoCではあるものの、現時点ではUMAによる完全なメモリアクセスは実現していない。
次回は、記者の業務はAIツールを活用することで軽減されたのかどうかを解説する。
米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
日々情報が増え続ける今、業務に必要な全ての情報を、社内外の関連ニュースや論文、特許情報などから収集していくのは至難の業だ。そこで業務に必要な情報を着実に届けるための仕組み作りに役立つサービスを紹介する。
クラウド利用の拡大に伴い、データが分散・肥大化する中、従来のセキュリティ対策の限界が見え始めている。データの所在や利用状況を可視化し、リスクを事前に把握して対応することが求められる今、有効となる新たなアプローチを探る。
AIの活用が急速に進む一方で、セキュリティリスクの増大が懸念され、企業の対応が急務となっている。本資料では、2024年2~12月までの5365億件のAI/ML(機械学習)トランザクションの分析に基づき、その実態と対策を多角的に考察する。
製造業の設計現場では、設計プロセスの複雑化などの課題が山積している。こうした中、注目を集めているのが生成AIの活用だ。本資料では、生成AIがもたらす設計業務の未来について、詳しく解説する。
多くの企業が業務における生成AIの有用性を実感する一方、高度な活用を目指すに当たり、壁に突き当たっているケースは多い。既存の業務やシステムと生成AIをスムーズに組み合わせ、自社に合った形で活用するには、どうすればよいのか。
ドキュメントから「価値」を引き出す、Acrobat AIアシスタント活用術 (2025/3/28)
広がるIBM i の可能性 生成AIによる基幹システム活用の新たな技術的アプローチ (2025/3/28)
「NVIDIAのGPUは高過ぎる……」と諦める必要はない? GPU調達はこう変わる (2025/3/11)
PoCで終わらせない企業の生成AI活用 有識者が語る、失敗を避けるためのノウハウ (2024/10/18)
生成AIのビジネス利用 すぐに、安全に使うためには? (2024/8/26)
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...