いまさら聞けない「GPT-4o」と「GPT-4 Turbo」の違いはこれだ：LLM新モデルがもたらす変化【前編】

OpenAIが2024年5月に発表したLLM「GPT-4o」は、「GPT-4 Turbo」から何が進化したのか。押さえておくべきポイントを解説する。

≫ 2024年10月17日 07時00分公開

[Lev Craig，TechTarget]

「GPT-4 Turbo」から「GPT-4o」へ　何が進化した？

併せて読みたいお薦め記事

LLMに関する話題

　GPT-4oとGPT-4 TurboはどちらもOpenAIのAIチャットbot「ChatGPT」のベースとなるLLMだ。対話形式のやりとりが可能で、エンドユーザーのプロンプト（情報を生成するための指示や質問文）に応じて文脈に沿った回答を生成する。過去のやりとりのデータを保持し、内容に反映することもできる。

　両LLMのコンテキストウィンドウ（生成AIがやりとりの中で保持する情報量）は最大12万8000トークン（注）。GPT-4oの学習データは2023年10月までの情報に基づいており、GPT-4 Turboの学習データは2023年12月までの情報に基づく。

※注：トークンとはテキストデータを処理する際の基本的な単位で、英語であれば1トークンは4文字程度と考えられる。

　それではGPT-4oは、GPT-4 Turboから何が大きく進化したのか。以降で紹介する内容は、米TechTarget編集部がChatGPT上で両モデルを使用した結果と、以下の情報に基づく。

OpenAIの発表や技術文書
ソーシャルメディア「Reddit」
技術系ブログ
OpenAIの開発者フォーラム「OpenAI Developer Forum」のレビュー

1．マルチモーダル機能の強化

　GPT-4oとGPT-4 Turboはどちらも、テキストだけでなく画像や音声など複数の形式のデータを扱えるマルチモーダルなモデルだ。ChatGPT上でどちらのモデルを選択しても、画像の読み込みや生成、音声対話といった機能を利用できる。

　一方で、その仕組みは大きく異なるようだ。

　GPT-4 Turboはテキスト処理を目的に設計されており、画像や音声、動画を処理するための機能は組み込まれていない。そのためChatGPTでは、GPT-4 Turboでテキスト以外のデータを扱う場合、画像生成モデル「Dall-E」や音声認識モデル「Whisper」といった他のOpenAI製モデルを呼び出して処理する仕組みとなっている。

　対してGPT-4oは、名称に「Omni」（ラテン語で「全ての」を意味する接頭辞）を冠することから分かるように、マルチモーダル機能が組み込まれている。OpenAIはGPT-4oについて、「テキストや画像、動画、音声を含む全ての入出力を、単一のニューラルネットワーク（人間の脳の神経回路を模倣したもの）で処理できる」と説明している。

　GPT-4oは画像解析など、複数のデータ形式を扱うタスクにおいて、処理速度がGPT-4 Turboよりも高速化している。OpenAIが2024年5月に実施したGPT-4oのデモでは、人間が数学の問題を解く様子をビデオ撮影し、GTP-4oがその内容をリアルタイムで解析して音声フィードバックを提供していた。

　次回は引き続き、GPT-4 TurboからGPT-4oの進化を解説する。

TechTarget発先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

TechTargetジャパントップエンタープライズAI