BERT、GeminiからGPT-3.5、GPT-4oまで「主要LLM11種」の特徴は?代表的なLLM19選を徹底解説【前編】

「ChatGPT」の登場で一躍注目を浴びることになったLLM。各ベンダーは、LLMを進化させるための開発に取り組んでいる。主要LLM11種の特徴や、進化のポイントを解説する。

2024年06月20日 08時30分 公開
[Ben LutkevichTechTarget]

 2022年にAIベンダーOpenAIがAI(人工知能)チャットbot「ChatGPT」を発表して以降、テキストや画像を自動生成する「生成AI」と、その基になる大規模言語モデル(LLM)は、急速に企業や消費者の関心を集めることとなった。これまでに登場しているLLMの中から、主要なLLMを11個まとめて紹介する。それぞれのLLMにはどのような特徴があるのか。

BERT、GeminiからGPT-3.5、GPT-4oまで 主要LLM11種の特徴

1.BERT

 BERTは、Googleが2018年に発表した深層学習(ディープラーニング)モデルTransformerをベースにしたLLMだ。3億4000万のパラメーター(モデルのトレーニングに使う変数)を持つ。文章の意味推測や機械翻訳など、さまざまなタスクに応用できる汎用(はんよう)性のあるモデルだ。2019年には、Google検索におけるクエリの理解度を向上させるためにBERTが使われた。

 BERTは、大規模データセットを用いた事前学習で基本的な事象を学習している。その後、独自のトレーニング「ファインチューニング」を実施することで幅広いタスクへの応用が可能だ。

2.Claude

 2023年3月にAIベンダーAnthropicが公開した「Claude」は、「憲法AI」(Constitutional AI)に焦点を当てている。憲法AIとは、倫理的な善悪の判断基準に基づいてAIの出力を導くものだ。正確な回答を提供し、コンテンツの有害性を排除することで、ユーザーにとって安全で信頼できるAIアシスタントとなっている。

3.Cohere

 「Cohere」は、AIベンダーCohere社が提供する企業向けのオープンソースLLMだ。「Cohere Command R」「Cohere Rerank」「Cohere Embed」など複数のLLMを提供しており、企業の特定のニーズに合わせてファインチューニングが可能だ。

4.ERNIE(文心大模型)

 「ERNIE」(文心大模型) は、中国の検索エンジン大手Baidu(百度)のLLMで、10兆ものパラメーターを持つと言われる。標準中国語(マンダリン)での精度が最も高いが、他の言語でも使用可能だ。

 2023年8月にBaiduが公開したAIチャットbot「ERNIE Bot(文心一言)」にERNIEが搭載されている。

5.Falcon

 「Falcon」は、Transformerベースのオープンソース言語モデルだ。アラブ首長国連邦の首都アブダビに拠点を置く研究機関Technology Innovation Institute(TII)が2023年5月に発表した。オープンソースライセンス「Apache License 2.0」の下で公開されている。

 400億個のパラメーター数を備えるLLM「Falcon-40B」の他、軽量モデル「Falcon-7B」「Falcon-RW-1B」があり、パラメーター数はそれぞれ70億個と10億個。軽量モデルは一般のPCでも利用が可能だ。

 Falcon 40Bは、Amazon Web Services(AWS)の機械学習モデル構築サービス「Amazon SageMaker」で利用できる他、ソースコード共有サービス「GitHub」で入手することもできる。TIIは2024年5月に、110億個のパラメーターを備えた「Falcon 2」を発表している。

6.Gemini

 2023年12月にGoogleが発表したGeminiは、TransformerベースのLLMだ。テキストだけでなく画像、音声、動画も処理できるマルチモーダルLLMだ。Googleのさまざまなアプリケーションや製品に組み込まれている。各種のベンチマークテスト(性能テスト)において、さまざまな指標でGPT-4を上回った。

 Geminiには、「Ultra」「Pro」「Nano」の3つのサイズがある。Ultraは3つの中で最もおパラメーター数が大きいモデル。Proは中間クラスのモデル。Nanoは効率性を重視して設計された軽量モデルで、デバイス上でのタスクに適する。

7.Gemma

 「Gemma」は、Googleが2024年2月に公開したオープンソースLLMだ。同社が2023年12月に発表したLLM「Gemini」と同じ技術を用いて構築されている。Gemmaには「Gemma 2B」と「Gemma 7B」の2つのサイズがあり、それぞれ20億個と70億個のパラメーターを持つ。

 Gemmaは比較的軽量モデルのため、特別なサーバがなくても一般のPCで稼働できる。複数のベンチマークで、Gemmaはサイズが同程度のMeta PlatformsのLLM「Llama 2」を上回る性能を見せている。

8.GPT-3

 2018年、OpenAIの論文「Improving Language Understanding by Generative Pre-Training」でGPTシリーズが紹介された。同社が2020年に提供を開始した「GPT-3」は、2022年11月に同社が発表したChatGPTに組み込まれた。

 BERTと同様、GPT-3はToransformerをベースにしたLLMだ。1750億個以上のパラメーターを持っており、これは前モデル「GPT-2」に比べて10倍以上となる。

 GPT-3の学習データには以下が含まれる。

  • 非営利団体Common Crawlが収集したWebデータ
  • 米国のソーシャルニュースサイト「Reddit」における投稿を基にしたデータセット「OpenWebText2」
  • 無料の電子書籍をデータベース化した「Books1」「Books2」
  • 無料の百科事典「Wikipedia」

 2020年9月、MicrosoftはGPT-3の独占ライセンス権を取得したことを発表している。

9.GPT-3.5

 OpenAIは2022年11月、GPT-3のアップグレード版である「GPT-3.5」を発表。パラメーター数は3550億個。学習データは2021年9月までの情報に基づく。

 人間のフィードバックを基に強化学習を実施する手法「RLHF」(Reinforcement Learning from Human Feedback)でファインチューニングを実施している。これにより、倫理的に問題のある内容や、うその情報、役に立たない情報などの出力を抑えることができる。

10.GPT-4

 OpenAIは2023年3月に「GPT-4」を発表した。OpenAIはパラメーター数を非公開としているが、AWSの公式Webページによると、GPT-4のトレーニングには170兆のパラメーターが使われている。医師国家試験を解かせたところ合格レベルに達したといった結果を受けて、GPT-4について「AGI(汎用人工知能)に近づいた」「人間と同等かより賢い」と評価する声が出ている。

 GPT-4はマルチモーダルLLMであり、数値や画像、テキスト、音声など複数種類のデータを組み合わせて、あるいは関連付けて処理できる。「システムメッセージ」機能により、回答のトーンやタスクを指定して対話のカスタマイズをすることができる。

11.GPT-4o

 OpenAIが2024年5月に発表した「GPT-4 Omni」(GPT-4o)は、OpenAIがGPT-4の改良版として開発したLLMだ。マルチモーダルLLMであり、テキストだけでなく音声や画像も扱うことができる。写真を見て、関連する質問に答えることもできる。

 GPT-4oは特に音声会話機能を大幅に改良しており、音声入力に対して、最短232ミリ秒(1秒の約4分の1)、平均320ミリ秒での応答が可能。これは人間の応答速度に近い数字だ。対話の中から相手の感情を読み取ることもでき、まるで人間と対話しているかのような体験を提供する。


 中編は、LLMの前身となった自然言語処理モデルを紹介する。12〜19個目のLLMは後編で紹介する。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

ITmedia マーケティング新着記事

news103.jpg

なぜ料理の失敗写真がパッケージに? クノールが展開する「ジレニアル世代」向けキャンペーンの真意
調味料ブランドのKnorr(クノール)は季節限定のホリデーマーケティングキャンペーン「#E...

news160.jpg

業界トップランナーが語る「イベントDX」 リアルもオンラインも、もっと変われる
コロナ禍を経て、イベントの在り方は大きく変わった。データを駆使してイベントの体験価...

news210.png

SEOを強化するサイトの9割超が表示速度を重視 で、対策にいくら投資している?
Reproが「Webサイトの表示速度改善についての実態調査 2024」レポートを公開。表示速度改...