OpenAIが2024年5月に発表したLLM「GPT-4o」は、「GPT-4 Turbo」から何が進化したのか。押さえておくべきポイントを解説する。
AI(人工知能)ベンダーOpenAIが2024年5月に発表した大規模言語モデル(LLM)「GPT-4 Omni」(GPT-4o)は、同社が提供してきたLLMを基に改良が施された新たなLLMだ。同社が2023年11月に発表したLLM「GPT-4 Turbo」からどのような点が進化したのか。
GPT-4oとGPT-4 TurboはどちらもOpenAIのAIチャットbot「ChatGPT」のベースとなるLLMだ。対話形式のやりとりが可能で、エンドユーザーのプロンプト(情報を生成するための指示や質問文)に応じて文脈に沿った回答を生成する。過去のやりとりのデータを保持し、内容に反映することもできる。
両LLMのコンテキストウィンドウ(生成AIがやりとりの中で保持する情報量)は最大12万8000トークン(注)。GPT-4oの学習データは2023年10月までの情報に基づいており、GPT-4 Turboの学習データは2023年12月までの情報に基づく。
※注:トークンとはテキストデータを処理する際の基本的な単位で、英語であれば1トークンは4文字程度と考えられる。
それではGPT-4oは、GPT-4 Turboから何が大きく進化したのか。以降で紹介する内容は、米TechTarget編集部がChatGPT上で両モデルを使用した結果と、以下の情報に基づく。
GPT-4oとGPT-4 Turboはどちらも、テキストだけでなく画像や音声など複数の形式のデータを扱えるマルチモーダルなモデルだ。ChatGPT上でどちらのモデルを選択しても、画像の読み込みや生成、音声対話といった機能を利用できる。
一方で、その仕組みは大きく異なるようだ。
GPT-4 Turboはテキスト処理を目的に設計されており、画像や音声、動画を処理するための機能は組み込まれていない。そのためChatGPTでは、GPT-4 Turboでテキスト以外のデータを扱う場合、画像生成モデル「Dall-E」や音声認識モデル「Whisper」といった他のOpenAI製モデルを呼び出して処理する仕組みとなっている。
対してGPT-4oは、名称に「Omni」(ラテン語で「全ての」を意味する接頭辞)を冠することから分かるように、マルチモーダル機能が組み込まれている。OpenAIはGPT-4oについて、「テキストや画像、動画、音声を含む全ての入出力を、単一のニューラルネットワーク(人間の脳の神経回路を模倣したもの)で処理できる」と説明している。
GPT-4oは画像解析など、複数のデータ形式を扱うタスクにおいて、処理速度がGPT-4 Turboよりも高速化している。OpenAIが2024年5月に実施したGPT-4oのデモでは、人間が数学の問題を解く様子をビデオ撮影し、GTP-4oがその内容をリアルタイムで解析して音声フィードバックを提供していた。
次回は引き続き、GPT-4 TurboからGPT-4oの進化を解説する。
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
インバウンド消費を左右する在日中国人の影響力
アライドアーキテクツは、独自に構築した在日中国人コミュニティーを対象に、在日中国人...
SEOは総合格闘技である――「SEOおたく」が語る普遍のマインド
SEOの最新情報を発信する「SEOおたく」の中の人として知られる著者が、SEO担当者が持つべ...
HubSpot CMSにWebサイトの「定石」を実装 WACUL×100のパッケージ第1弾を提供開始
WACULと100は共同で、Webサイトの「定石」をHubSpotで実装する「Webサイト構築パッケージ...