検索
特集/連載

いまさら聞けない「GPT-4o」と「GPT-4 Turbo」の違いはこれだLLM新モデルがもたらす変化【前編】

OpenAIが2024年5月に発表したLLM「GPT-4o」は、「GPT-4 Turbo」から何が進化したのか。押さえておくべきポイントを解説する。

Share
Tweet
LINE
Hatena

関連キーワード

人工知能


 AI(人工知能)ベンダーOpenAIが2024年5月に発表した大規模言語モデル(LLM)「GPT-4 Omni」(GPT-4o)は、同社が提供してきたLLMを基に改良が施された新たなLLMだ。同社が2023年11月に発表したLLM「GPT-4 Turbo」からどのような点が進化したのか。

「GPT-4 Turbo」から「GPT-4o」へ 何が進化した?

 GPT-4oとGPT-4 TurboはどちらもOpenAIのAIチャットbot「ChatGPT」のベースとなるLLMだ。対話形式のやりとりが可能で、エンドユーザーのプロンプト(情報を生成するための指示や質問文)に応じて文脈に沿った回答を生成する。過去のやりとりのデータを保持し、内容に反映することもできる。

 両LLMのコンテキストウィンドウ(生成AIがやりとりの中で保持する情報量)は最大12万8000トークン(注)。GPT-4oの学習データは2023年10月までの情報に基づいており、GPT-4 Turboの学習データは2023年12月までの情報に基づく。

※注:トークンとはテキストデータを処理する際の基本的な単位で、英語であれば1トークンは4文字程度と考えられる。

 それではGPT-4oは、GPT-4 Turboから何が大きく進化したのか。以降で紹介する内容は、米TechTarget編集部がChatGPT上で両モデルを使用した結果と、以下の情報に基づく。

  • OpenAIの発表や技術文書
  • ソーシャルメディア「Reddit」
  • 技術系ブログ
  • OpenAIの開発者フォーラム「OpenAI Developer Forum」のレビュー

1.マルチモーダル機能の強化

 GPT-4oとGPT-4 Turboはどちらも、テキストだけでなく画像や音声など複数の形式のデータを扱えるマルチモーダルなモデルだ。ChatGPT上でどちらのモデルを選択しても、画像の読み込みや生成、音声対話といった機能を利用できる。

 一方で、その仕組みは大きく異なるようだ。

 GPT-4 Turboはテキスト処理を目的に設計されており、画像や音声、動画を処理するための機能は組み込まれていない。そのためChatGPTでは、GPT-4 Turboでテキスト以外のデータを扱う場合、画像生成モデル「Dall-E」や音声認識モデル「Whisper」といった他のOpenAI製モデルを呼び出して処理する仕組みとなっている。

 対してGPT-4oは、名称に「Omni」(ラテン語で「全ての」を意味する接頭辞)を冠することから分かるように、マルチモーダル機能が組み込まれている。OpenAIはGPT-4oについて、「テキストや画像、動画、音声を含む全ての入出力を、単一のニューラルネットワーク(人間の脳の神経回路を模倣したもの)で処理できる」と説明している。

 GPT-4oは画像解析など、複数のデータ形式を扱うタスクにおいて、処理速度がGPT-4 Turboよりも高速化している。OpenAIが2024年5月に実施したGPT-4oのデモでは、人間が数学の問題を解く様子をビデオ撮影し、GTP-4oがその内容をリアルタイムで解析して音声フィードバックを提供していた。


 次回は引き続き、GPT-4 TurboからGPT-4oの進化を解説する。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る