OpenAIの進化モデル「GPT-4o」は何がすごい? GPT-4やTurboとの違いは「GPT-4o」を徹底解剖【前編】

2024年5月、OpenAIはLLM「GPT-4o」を発表した。同LLMをさらに“人間に近づけた”機能とは。具体的な特徴や、活用方法をまとめて解説する。

2024年06月26日 08時00分 公開
[Sean Michael KernerTechTarget]

関連キーワード

人工知能


 AI(人工知能)ベンダーOpenAIが2022年11月に発表したAIチャットbot「ChatGPT」は、提供からわずか2カ月で1億人のユーザーを獲得した。ChatGPTに使われている大規模言語モデル(LLM)「GPT-3」「GPT-4」の精度の高さや、応用範囲の広さ、利用の容易さから、同社のサービスは世界の強い関心を集めた。

 2024年5月、OpenAIは同社主催のイベント「Spring Updates」で、LLM「GPT-4 Omni」(GPT-4o)を発表した。前身モデルからの特徴的な進化や、具体的な機能をまとめて解説する。

「GPT-4o」は何がすごい? GPT-4やTurboとの違いは?

会員登録(無料)が必要です

 GPTは「Generative Pre-Trained Transformer」の略だ。深層学習モデル「Transformer」をベースに、文章や情報を理解して新しい回答を生成できる仕組みを提供する。GPT-4oは、OpenAIが2023年11月に発表した「GPT-4 Turbo」に続き、GPT-4に対する2回目のアップデートとなる。

 GPT-4oは、OpenAIのLLMポートフォリオの最上位モデルであり、回答精度など性能面でGPT-4 Turboを上回るとされる。その用途は、文章要約から質問への回答、論理的推論、数学問題の解答、コーディングなど幅広い。

 GPT-4oの大きな特徴が、音声入力と音声応答機能を実装したことだ。OpenAIによると、平均応答時間は320ミリ秒。人間との会話に近いスピードを実現しており、ユーザーは違和感なくGPT-4oと音声対話できる。AIモデルが生成した音声とも対話が可能だ。

 その他、GPT-4oの特徴として以下がある。

  • マルチモーダルLLM
    • 「o」は「Omni」(ラテン語で「全ての」を意味する接頭辞)の頭文字で、GPT-4oがテキストや画像、音声など複数種類のデータを組み合わせて処理できるマルチモーダルLLMであることを示している。
  • コンテキストウィンドウの拡大
    • GPT-4oのコンテキストウィンドウ(生成AIがやりとりの中で保持する情報量)は最大12万8000トークンとなっている。トークンとはテキストデータを処理する際の基本的な単位で、英語であれば1トークンは4文字程度と考えられる。コンテキストウィンドウがあることで、長い文章の処理においても一貫性を保つことができる。
  • ハルシネーション抑制と安全性の強化
    • GPT-4oは、LLMが不正確な回答を出力する幻覚(ハルシネーション)を最小限に抑えるような設計を取り入れている。出力内容の安全性を保証するため、安全性を強化する手順も用意されている。

 次の表は、GPT-4、GPT-4 Turbo、GPT-4oの違いを簡単にまとめたものだ。

表 GPT-4、GPT-4 Turbo、GPT-4oの違い
モデル GPT-4 GPT-4 Turbo GPT-4o
発表時期 2023年3月 2023年11月 2024年5月
コンテキストウィンドウ 8192トークン 12万8000トークン 12万8000トークン
ナレッジカットオフ(注1) 2021年9月 2023年4月 2023年10月
コスト/100万トークン 入力30ドル、出力60ドル 入力10ドル、出力30ドル 入力5ドル、出力15ドル

※注1:ChatGPTが最後にトレーニングデータを受け取った時点のこと

「GPT-4o」は何ができる?

 GPT-4oは以下のような機能を持つ。

  • リアルタイム音声対話
    • リアルタイムでの音声対話機能。その応答速度の速さから、モデルとユーザー間の自然な対話が可能となる。
  • 質問への回答
    • GPT-4と同様、GPT-4oは豊富な知識に基づいてユーザーからの質問に回答する。
  • テキストの要約と生成
    • 文章の要約やソースコードの生成といった、テキスト処理関連のタスクを実行する。
  • マルチモーダル処理
    • テキストや画像、音声など複数種類のデータ形式を処理する。
  • 画像コンテンツの理解
    • 画像や動画形式のコンテンツを理解し、内容の説明や分析をする。
  • 音声分析
    • 音声コンテンツを分析する。この機能はユーザーとの対話や、音声認識システムに組み込める。
  • 感情分析
    • テキストや音声、映像など、異なる形式のデータを組み合わせてユーザーの感情を理解する。
  • 感情の込もった音声生成
    • 感情豊かな音声生成ができる。繊細なコミュニケーションに適している。
  • リアルタイム翻訳
    • 異なる複数の言語間のリアルタイム翻訳を実現する。50カ国語以上の言語で使用できる。
  • データ分析
    • 図表の解析と、データやプロンプト(指示文)に基づく図表の作成ができる。
  • ファイルの処理
    • 表計算ツール「Microsoft Excel」など特定形式のファイルをアップロードすると、データの詳細な分析ができる。大量のデータを処理して、意思決定や予測分析に役立てることができる。

 後編は、GPT-4oを使う方法について解説する。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

新着ホワイトペーパー

製品資料 ニュータニックス・ジャパン合同会社

AIの実装/管理を成功させる4つのポイント:データやコストの課題と解決策

AIは生産性や顧客満足度の向上などさまざまな効果をもたらすが、その導入時に、AIモデルの管理/監視、従業員のスキルギャップ、データの一貫性などの課題に悩まされる企業は多い。これらを解消するために必要な、AI戦略の進め方とは?

製品資料 ニュータニックス・ジャパン合同会社

PoC段階で30%の企業が導入を断念、生成AIプロジェクトを成功に導くためには?

企業にとって生成AIは、生産性向上や収益性増加をもたらす重要な技術だが、導入には多くの課題が存在する。PoC(概念実証)段階で約30%の企業が導入を断念するといわれる生成AIプロジェクトを成功に導くための方法を紹介する。

製品資料 日本マイクロソフト株式会社

“普通の社員”のPC活用が根底から変わる、Copilot+ PCがもたらすAI改革の姿

生成AIによって既存業務の生産性向上といった成果を上げる企業が増えている今、AIをより効果的に活用するための鍵になるといわれているのが、AI処理に特化した「Copilot+ PC」だ。AI PCが具体的にどのような変化をもたらすのかを解説する。

事例 アマゾン ウェブ サービス ジャパン 合同会社

先進的なIT企業に学ぶ、業務に必要なAIを現場で開発するための環境作りの極意

企業のDX支援などを手掛けるSpeeeでは、各チームの業務に最適化されたAIエージェントを、現場レベルで自律的に開発/活用するための環境を提供している。このようにAIとデータの活用を民主化した理由とシステム構成を解説する。

製品資料 株式会社SHIFT

AIシステムのアウトプット品質を担保するための方法とは?

ビジネスにおけるAIへの依存度が高まる一方、AIのアウトプット品質に関する懸念が広まっており、導入をためらう組織も増えている。本資料では、AIシステムの精度を高め、アウトプットの品質を担保するための具体的な方法を解説する。

アイティメディアからのお知らせ

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...