OpenAIの進化モデル「GPT-4o」は何がすごい? GPT-4やTurboとの違いは「GPT-4o」を徹底解剖【前編】

2024年5月、OpenAIはLLM「GPT-4o」を発表した。同LLMをさらに“人間に近づけた”機能とは。具体的な特徴や、活用方法をまとめて解説する。

2024年06月26日 08時00分 公開
[Sean Michael KernerTechTarget]

関連キーワード

人工知能


 AI(人工知能)ベンダーOpenAIが2022年11月に発表したAIチャットbot「ChatGPT」は、提供からわずか2カ月で1億人のユーザーを獲得した。ChatGPTに使われている大規模言語モデル(LLM)「GPT-3」「GPT-4」の精度の高さや、応用範囲の広さ、利用の容易さから、同社のサービスは世界の強い関心を集めた。

 2024年5月、OpenAIは同社主催のイベント「Spring Updates」で、LLM「GPT-4 Omni」(GPT-4o)を発表した。前身モデルからの特徴的な進化や、具体的な機能をまとめて解説する。

「GPT-4o」は何がすごい? GPT-4やTurboとの違いは?

 GPTは「Generative Pre-Trained Transformer」の略だ。深層学習モデル「Transformer」をベースに、文章や情報を理解して新しい回答を生成できる仕組みを提供する。GPT-4oは、OpenAIが2023年11月に発表した「GPT-4 Turbo」に続き、GPT-4に対する2回目のアップデートとなる。

 GPT-4oは、OpenAIのLLMポートフォリオの最上位モデルであり、回答精度など性能面でGPT-4 Turboを上回るとされる。その用途は、文章要約から質問への回答、論理的推論、数学問題の解答、コーディングなど幅広い。

 GPT-4oの大きな特徴が、音声入力と音声応答機能を実装したことだ。OpenAIによると、平均応答時間は320ミリ秒。人間との会話に近いスピードを実現しており、ユーザーは違和感なくGPT-4oと音声対話できる。AIモデルが生成した音声とも対話が可能だ。

 その他、GPT-4oの特徴として以下がある。

  • マルチモーダルLLM
    • 「o」は「Omni」(ラテン語で「全ての」を意味する接頭辞)の頭文字で、GPT-4oがテキストや画像、音声など複数種類のデータを組み合わせて処理できるマルチモーダルLLMであることを示している。
  • コンテキストウィンドウの拡大
    • GPT-4oのコンテキストウィンドウ(生成AIがやりとりの中で保持する情報量)は最大12万8000トークンとなっている。トークンとはテキストデータを処理する際の基本的な単位で、英語であれば1トークンは4文字程度と考えられる。コンテキストウィンドウがあることで、長い文章の処理においても一貫性を保つことができる。
  • ハルシネーション抑制と安全性の強化
    • GPT-4oは、LLMが不正確な回答を出力する幻覚(ハルシネーション)を最小限に抑えるような設計を取り入れている。出力内容の安全性を保証するため、安全性を強化する手順も用意されている。

 次の表は、GPT-4、GPT-4 Turbo、GPT-4oの違いを簡単にまとめたものだ。

表 GPT-4、GPT-4 Turbo、GPT-4oの違い
モデル GPT-4 GPT-4 Turbo GPT-4o
発表時期 2023年3月 2023年11月 2024年5月
コンテキストウィンドウ 8192トークン 12万8000トークン 12万8000トークン
ナレッジカットオフ(注1) 2021年9月 2023年4月 2023年10月
コスト/100万トークン 入力30ドル、出力60ドル 入力10ドル、出力30ドル 入力5ドル、出力15ドル

※注1:ChatGPTが最後にトレーニングデータを受け取った時点のこと

「GPT-4o」は何ができる?

 GPT-4oは以下のような機能を持つ。

  • リアルタイム音声対話
    • リアルタイムでの音声対話機能。その応答速度の速さから、モデルとユーザー間の自然な対話が可能となる。
  • 質問への回答
    • GPT-4と同様、GPT-4oは豊富な知識に基づいてユーザーからの質問に回答する。
  • テキストの要約と生成
    • 文章の要約やソースコードの生成といった、テキスト処理関連のタスクを実行する。
  • マルチモーダル処理
    • テキストや画像、音声など複数種類のデータ形式を処理する。
  • 画像コンテンツの理解
    • 画像や動画形式のコンテンツを理解し、内容の説明や分析をする。
  • 音声分析
    • 音声コンテンツを分析する。この機能はユーザーとの対話や、音声認識システムに組み込める。
  • 感情分析
    • テキストや音声、映像など、異なる形式のデータを組み合わせてユーザーの感情を理解する。
  • 感情の込もった音声生成
    • 感情豊かな音声生成ができる。繊細なコミュニケーションに適している。
  • リアルタイム翻訳
    • 異なる複数の言語間のリアルタイム翻訳を実現する。50カ国語以上の言語で使用できる。
  • データ分析
    • 図表の解析と、データやプロンプト(指示文)に基づく図表の作成ができる。
  • ファイルの処理
    • 表計算ツール「Microsoft Excel」など特定形式のファイルをアップロードすると、データの詳細な分析ができる。大量のデータを処理して、意思決定や予測分析に役立てることができる。

 後編は、GPT-4oを使う方法について解説する。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

ITmedia マーケティング新着記事

news075.png

Z世代の告白手段は「直接」が大多数 理由は?
好きな人に思いを伝える手段として最も多く選ばれるのは「直接」。理由として多くの人は...

news100.jpg

日本はなぜ「世界の旅行者が再訪したい国・地域」のトップになったのか 5つの視点で理由を解き明かす
電通は独自調査で、日本が「観光目的で再訪したい国・地域」のトップとなった要因を「期...

news023.jpg

誰も見ていないテレビ番組にお金を払って露出する意味はあるのか?
無名のわが社でもお金を出せばテレビに出してもらえる? 今回は、広報担当者を惑わせる...