単なる“軽量版LLM”ではない？　小規模言語モデル（SLM）の仕組みを解剖：SLMの基礎をおさらい【後編】

AI導入企業にとって、大規模言語モデル（LLM）に加えて小規模言語モデル（SLM）が有力な選択肢となっている。SLMはただの“軽量版LLM”ではない。その仕組みを解説する。

≫ 2025年07月01日 05時00分公開

単なる“軽量版LLM”ではない？　SLMの仕組みを徹底解剖

併せて読みたいお薦め記事

連載：SLMの基礎をおさらい

前編：AIは「大きいほど賢い」わけじゃない？　LLMとの比較から見る「SLM」の実用性

広がるSLMの活用

　LLMと同様、SLMのベースとなるのは深層学習モデル「Transformer」ベースのアーキテクチャだ。Transformerでは、エンコーダーという仕組みを用いて、データのシーケンス（並び）を数値化された埋め込みベクトル変換する。このベクトルこそが、AIモデルが言語の意味を理解するための基盤となり、トークン（言語の最小単位）の意味や位置関係をモデル内部で定義する役割を果たす。

　トークンとは、大きなデータセットの中の最小構成要素のことで、単語や文字、フレーズなどを指す。テキストを処理する際、文章は複数のトークンに分割され、例えば単語や句読点の一つ一つが個別のトークンとして扱われる。このトークン化のプロセスは、AIモデルがデータを処理するための準備に不可欠なステップとなる。

　Transformerは以下のようなさまざまな場面で活用されている。

翻訳
- ほぼリアルタイムでテキストや音声を翻訳できる。例えば、観光客が母国語で現地の人とスムーズに会話できるアプリケーションがある。
DNAの解析や新薬の開発
- DNA配列の解析や新薬の候補物質探索にTransformerが活用されている。
不正行為の検出
- データに潜む異常を見つけ出し、金融取引やセキュリティにおける不正行為の早期発見および防止に役立つ。
コンピュータビジョン
- Googleの「Vision Transformer」のように、画像認識や物体検出といった視覚タスクにおいてもTransformerが広く使われている。

モデル圧縮

　LLMをベースにSLMを構築する際、「モデル圧縮」（model compression）という手法を用いて、既存のLLMからサイズを小さくしたモデルを作り出す。このプロセスにおける圧縮手法の精度や工夫の違いが、SLMの性能を大きく左右する可能性がある。

　モデル圧縮とは、元の大規模モデルから不要な部分を削ぎ落として小型化する一連の技術の総称だ。この分野にはさまざまな技法があり、以下のような手法が代表的だ。

プルーニング（Pruning）
- 重要度の低いパラメーターやノードを削除し、ネットワークを簡素化する。
量子化（Quantisation）
- 重みや演算を低精度の数値（float32からint8など）で表現して計算負荷を軽減する。
低ランク分解（Low-rank Factorisation）
- 重み行列をより小さな行列に分解して近似し、計算を効率化する。
知識の蒸留（Knowledge Distillation）
- 大規模モデル（教師）から小規模モデル（生徒）に学習済みの知識を移す。

　これらの技術は、それぞれが専門書1冊分に相当する奥深い分野だ。ここでは、低ランク分解について簡単に紹介しよう。

　低ランク分解とは、重み行列（どの要素がどれくらい重要か、どう関係しているかを表す数字の集まり）を、より小さな行列に分解して近似的に再現する技法だ。これにより、モデルが保持する情報の本質を保ちつつ、サイズや演算量を大幅に削減することができる。

Computer Weekly発世界に学ぶIT導入・活用術

米国Informa TechTargetが運営する英国Computer Weeklyの豊富な記事の中から、海外企業のIT製品導入事例や業種別のIT活用トレンドを厳選してお届けします。

TechTargetジャパントップエンタープライズAI