「GPT-4」や「GPT-4o」とGPT-3の違いとは “OpenAI製LLMの進化”を解説GPT-4とは何か?

OpenAIの大規模言語モデル(LLM)「GPT-4」は、「GPT-3」などの同社製LLMとは何が違うのか。GPT-4の主な機能や利用方法を説明する。

2024年07月04日 14時30分 公開
[Ben LutkevichTechTarget]

関連キーワード

人工知能 | チャットbot | 機械学習


 「GPT-4」はAI(人工知能)ベンダーOpenAIが開発した大規模言語モデル(LLM)だ。テキストや画像の入力内容を基にテキストを生成する。OpenAIは米国のAI開発企業で、画像処理AIモデルの「Dall-E」やAIチャットbotサービスの「ChatGPT」、GPT-4の前バージョンのLLMである「GPT-3」などを開発している。過去のGPTモデルよりも複雑なタスクを処理できるのが、GPT-4の特徴だ。

GPT-4とは何を意味するのか?

 GPT-4は「Generative Pre-Trained Transformer 4」の略称だ。GPTは、人間のようなテキストで入力に応答するLLMで、以下の特徴がある。

  • 生成的(Generative)
    • 新たな情報を生成する。
  • 訓練済み(Pre-Trained)
    • 大量の学習データであらかじめ学習し、基礎的な知識や回答パターンを出力可能にしている。この事前訓練によって、モデルは微調整するだけで特定の用途に対して利用可能になる。
  • トランスフォーマー(Transformer)
    • GPTはトランスフォーマーという自然言語処理(NLP)に特化した深層学習モデルを使用している。このモデルは連続した単語や文章同士の関係を追跡することで、文脈を把握できるようにする。GPTはTransformerを利用することで、文章中の単語を追跡し、次に来る単語を予測する。

 GPTの処理能力は、そのモデルが持つパラメーター(機械学習の調整に利用するための数値)の数と共に向上する。新しいGPTモデルは、一般的に前のモデルよりも多くのパラメーターを持っている。「GPT-1」は1億1700万個、GPT-2は15億個、GPT-3は1750億個以上のパラメーターを持っている。GPT-4のパラメーターの正確な数は不明だが、1兆個以上のパラメーターを持つと推測されている。

GPT-4は何が新しいのか

 2023年秋にOpenAIはGPT-4の改良版である「GPT-4 Turbo」を発表した。従来のGPT-4の回答は2022年1月までの情報に基づいていたが、GPT-4 Turboでは2023年4月までの情報に基づいた答えを提供できるようになった。画像分析機能の「GPT-4 Turbo with Vision」も追加された。このバージョンではモデルのコンテキストウィンドウ(AIモデルが一度に処理できるテキストの範囲)が拡大した。ChatGPTと他システムの連携サービスである「ChatGPT API」の入出力トークン(GPTが処理するテキストの単位)ごとの料金はGPT-4と比較して抑えられているため、開発者はLLMの利用コストを削減できるようになった。

 2024年5月、OpenAIは新バージョンの「GPT-4 Omni」(GPT-4o)を発表した。これにより応答速度や、音声と画像、テキストを認識する能力がさらに向上した。GPT-4oは画面や音声、テキストを同時に処理できるため、ユーザーが画面や機能を切り替える必要がなくなった。GPT-4oは、一般消費者向けと開発者向けの各種サービスで利用可能だ。

GPT-4の学習の仕組み

 各GPTのモデルは、人間からのフィードバックを用いた強化学習を使って訓練されている。モデルは望ましい行動やルールを順守した時に報酬を得る仕組みだ。GPT-4は人類にとって有害な回答を出すことを防ぐための学習も実施している。しかし他の言語モデルと同様に、GPT-4は事実とは異なる情報を出力する幻覚(ハルシネーション)を起こしたり、バグのあるソースコードを生成したりすることがある。人種や性別による偏見の影響を受けた回答を出力する可能性もある。

 OpenAIはGPT-4の技術論文で、セキュリティに関する理由と、競争が激化する市場の状況から、システムの訓練に使われた学習データの内容を公開しないと述べている。しかし同社は、GPT-4がWebに公開されているデータと、第三者からライセンスを得たデータの双方で訓練されたことを認めている。

GPT-4とGPT-3の違い

 GPT-3は、テキスト処理専用に設計されているLLMだ。GPT-4はマルチモーダルなLLMで、テキストや画像、音声などの複数の種類のデータを一度に処理できる。

 GPT-4とGPT-3の主な違いは以下の通りだ。

  • 言語理解
    1. 他の同社のLLMよりも回答精度に優れる傾向にある。
  • プロンプトの処理能力
    1. GPT-4はGPT-3よりも長いプロンプト(モデルに与える指示)を処理可能だ。具体的には英語で最大2万5000語のテキストを分析、読解、生成できる。
  • プログラムの作成
    • GPT-4はソースコードを生成する能力がGPT-3よりも高く、より複雑なプログラムが作成できる。
  • ステアラビリティ(制御可能性)
    • GPT-4はGPT-3と比較して、ユーザーが制御しやすい。GPT-3は一様な話し方で応答するが、GPT-4ではユーザーの指示で応答の仕方を指定できる。これによりプロンプトの作成が容易になり、プロンプトエンジニアリング(モデルに対して適切な指示や質問を設計する技術)が改善しやすくなる。ユーザーはChatGPTの動作を定義するシステムメッセージを使用して、GPT-4の動作を用途に合わせてカスタマイズできる。
  • 有害な応答の抑制
    • GPT-4は有害な応答をする可能性を抑え、許可されていないユーザーの要求には応答しないようにトレーニングされている。例えば危険な化学物質の合成方法について回答することを拒否したり、タバコの購入に関する質問には喫煙を奨励しない形で答えたりするように訓練されている。
  • 数学の基本処理
    • GPT-4はGPT-3よりも基本的な数学の計算が正確にできる。

Copyright © ITmedia, Inc. All Rights Reserved.

ITmedia マーケティング新着記事

news103.jpg

なぜ料理の失敗写真がパッケージに? クノールが展開する「ジレニアル世代」向けキャンペーンの真意
調味料ブランドのKnorr(クノール)は季節限定のホリデーマーケティングキャンペーン「#E...

news160.jpg

業界トップランナーが語る「イベントDX」 リアルもオンラインも、もっと変われる
コロナ禍を経て、イベントの在り方は大きく変わった。データを駆使してイベントの体験価...

news210.png

SEOを強化するサイトの9割超が表示速度を重視 で、対策にいくら投資している?
Reproが「Webサイトの表示速度改善についての実態調査 2024」レポートを公開。表示速度改...