小規模な「SLM」を“LLM並み”に賢くする「知識の蒸留」とは?AI活用の現実的な選択肢【前編】

SLM(小規模言語モデル)は、LLMよりもコスト効率の高い選択肢として注目されている。SLMには弱点もあるが、「知識の蒸留」によってそれを克服できる可能性がある。その具体的な仕組みとは。

2025年06月04日 08時00分 公開
[Cliff SaranTechTarget]

関連キーワード

人工知能


 大規模言語モデル(LLM)に代わるコスト効率の高い選択肢として、小規模言語モデル(SLM)が注目を集めている。SLMは、LLMに比べてファインチューニング(企業固有の要件に合わせた再学習)が容易で、実行効率に優れ、出力の制御がしやすいといったメリットを備えている。

 一方で、SLMの回答精度や汎用性はLLMのそれに劣るといった課題もある。こうしたSLMの弱点を補い、実用性を高めるためのアプローチとして注目されるのが「知識の蒸留」(Knowledge Distillation)だ。その基本的な仕組みについて解説する。

小規模な「SLM」をLLM並みに賢くする“知識の蒸留”とは?

 調査会社Gartnerは、2024年8月に発表したレポート「Explore Small Language Models for Specific AI Scenarios」の中で、言語モデルにおける「小規模」と「大規模」の定義がこれまでどのように変化してきたかを解説している。

 レポートによると、以下のようなLLMのパラメーター(AIモデルの振る舞いを決定する変数)は5000億から2兆程度と推定されている。

  • OpenAIの「GPT-4」
  • Googleの「Gemini 1.5」
  • Metaの「Llama 3.1 405B」
  • Anthropicの「Claude 3 Opus」

 一方、以下のようなAIモデルは100億以下のパラメーター数を備えると推定されており、SLMに分類される。

  • Mistral.AIの「Mistral 7B」
  • Microsoftの「Phi-3-mini 3.8B」「Phi-3-small 7B」
  • Metaの「Llama 3.1 8B」
  • Googleの「Gemma 2 9B」

 Gartnerは、SLMとLLMが必要とするコンピューティングリソースの比較を紹介している。例えば、80億パラメーターを持つ「Llama 3 8B」はGPU(グラフィックス処理装置)27.8GBのメモリを必要とするのに対し、700億パラメーターを持つ「Llama 3 70B」は160GBを必要とする。

 必要なGPUメモリの容量が大きくなるほど、コストも増大する。昨今のGPU価格を基に試算すると、6700億のパラメーターを備えるAIモデル「DeepSeek-R1」をメモリで稼働させるためには、10万ドル(約1450万円)超のサーバが必要となる。

 LLMの備えるパラメーター数はSLMの数倍に上るとされる。一般的に、パラメーター数の少ないAIモデルは回答精度や汎用性が劣る傾向がある。SLMでは特定の問いに対して適切な回答を得られないケースもある。

 こうしたSLMの弱点を補う手法として注目されているのが、知識の蒸留だ。蒸留とは、大規模モデルから学習した知識を、小規模モデルのトレーニングに活用する手法を指す。SLMの応答精度や推論能力を向上させつつ、トレーニングや推論に必要な計算リソースを大幅に抑えることができる。

 企業向けAIサービスを提供するDomino Data Labでフィールドチーフデータサイエンティストを務めるジャロッド・ボードリー氏は次のように話す。「この知識移転の仕組みにより、一部のLLMユーザーだけでなく、より幅広いユーザーが高度な言語処理能力を利用できるようになる」。知識蒸留を経たSLMは、LLMに比べてわずかな計算リソースで、LLMと同程度の応答と推論を実現できるようになる。

 ボードリー氏は、LLMからSLMへの蒸留プロセスを次のように解説する。まず、事前学習済みのLLMが「教師モデル」として機能する。次に、その知識を引き継ぐ「生徒モデル」がある。SLMは通常、パラメーターをランダムに設定した状態か、簡易的な事前学習を終えた状態からトレーニングを開始することが一般的だ。

 蒸留に当たっては、ラベル付きデータセットなどの構造化データと、自然言語データ(会話、文書、ソースコードなど)といった非構造化データの両方を活用する。蒸留の具体的なやり方には以下のようなものがある。

  • 応答ベースの知識蒸留
    • SLMがLLMの出力分布を模倣できるよう、最終的な応答結果に重点を置いて学習を行う手法。対象となるコーパス(言語情報)全体で、LLMの出力と高い一致度を保つことを目指す。
  • 特徴ベースの知識蒸留
    • 単に回答を再現するのではなく、SLMが推論プロセスの各段階で、教師モデルの内部的な特徴や思考の流れを模倣する。これにより、出力の再現にとどまらない「思考様式の継承」が可能となる。
  • 多段階の知識蒸留
    • 知識を段階的に簡略化しながら転移していく手法。例えば、LLMが中間的なモデル(準教師)に知識を伝え、そこからさらにSLMに知識を引き継ぐ。

 次回は、SLMの実用性について考察する。

TechTarget発 先取りITトレンド

米国Informa TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...