検索
特集/連載

OpenAIの進化モデル「GPT-4o」は何がすごい? GPT-4やTurboとの違いは「GPT-4o」を徹底解剖【前編】

2024年5月、OpenAIはLLM「GPT-4o」を発表した。同LLMをさらに“人間に近づけた”機能とは。具体的な特徴や、活用方法をまとめて解説する。

Share
Tweet
LINE
Hatena

関連キーワード

人工知能


 AI(人工知能)ベンダーOpenAIが2022年11月に発表したAIチャットbot「ChatGPT」は、提供からわずか2カ月で1億人のユーザーを獲得した。ChatGPTに使われている大規模言語モデル(LLM)「GPT-3」「GPT-4」の精度の高さや、応用範囲の広さ、利用の容易さから、同社のサービスは世界の強い関心を集めた。

 2024年5月、OpenAIは同社主催のイベント「Spring Updates」で、LLM「GPT-4 Omni」(GPT-4o)を発表した。前身モデルからの特徴的な進化や、具体的な機能をまとめて解説する。

「GPT-4o」は何がすごい? GPT-4やTurboとの違いは?

 GPTは「Generative Pre-Trained Transformer」の略だ。深層学習モデル「Transformer」をベースに、文章や情報を理解して新しい回答を生成できる仕組みを提供する。GPT-4oは、OpenAIが2023年11月に発表した「GPT-4 Turbo」に続き、GPT-4に対する2回目のアップデートとなる。

 GPT-4oは、OpenAIのLLMポートフォリオの最上位モデルであり、回答精度など性能面でGPT-4 Turboを上回るとされる。その用途は、文章要約から質問への回答、論理的推論、数学問題の解答、コーディングなど幅広い。

 GPT-4oの大きな特徴が、音声入力と音声応答機能を実装したことだ。OpenAIによると、平均応答時間は320ミリ秒。人間との会話に近いスピードを実現しており、ユーザーは違和感なくGPT-4oと音声対話できる。AIモデルが生成した音声とも対話が可能だ。

 その他、GPT-4oの特徴として以下がある。

  • マルチモーダルLLM
    • 「o」は「Omni」(ラテン語で「全ての」を意味する接頭辞)の頭文字で、GPT-4oがテキストや画像、音声など複数種類のデータを組み合わせて処理できるマルチモーダルLLMであることを示している。
  • コンテキストウィンドウの拡大
    • GPT-4oのコンテキストウィンドウ(生成AIがやりとりの中で保持する情報量)は最大12万8000トークンとなっている。トークンとはテキストデータを処理する際の基本的な単位で、英語であれば1トークンは4文字程度と考えられる。コンテキストウィンドウがあることで、長い文章の処理においても一貫性を保つことができる。
  • ハルシネーション抑制と安全性の強化
    • GPT-4oは、LLMが不正確な回答を出力する幻覚(ハルシネーション)を最小限に抑えるような設計を取り入れている。出力内容の安全性を保証するため、安全性を強化する手順も用意されている。

 次の表は、GPT-4、GPT-4 Turbo、GPT-4oの違いを簡単にまとめたものだ。

表 GPT-4、GPT-4 Turbo、GPT-4oの違い
モデル GPT-4 GPT-4 Turbo GPT-4o
発表時期 2023年3月 2023年11月 2024年5月
コンテキストウィンドウ 8192トークン 12万8000トークン 12万8000トークン
ナレッジカットオフ(注1) 2021年9月 2023年4月 2023年10月
コスト/100万トークン 入力30ドル、出力60ドル 入力10ドル、出力30ドル 入力5ドル、出力15ドル

※注1:ChatGPTが最後にトレーニングデータを受け取った時点のこと

「GPT-4o」は何ができる?

 GPT-4oは以下のような機能を持つ。

  • リアルタイム音声対話
    • リアルタイムでの音声対話機能。その応答速度の速さから、モデルとユーザー間の自然な対話が可能となる。
  • 質問への回答
    • GPT-4と同様、GPT-4oは豊富な知識に基づいてユーザーからの質問に回答する。
  • テキストの要約と生成
    • 文章の要約やソースコードの生成といった、テキスト処理関連のタスクを実行する。
  • マルチモーダル処理
    • テキストや画像、音声など複数種類のデータ形式を処理する。
  • 画像コンテンツの理解
    • 画像や動画形式のコンテンツを理解し、内容の説明や分析をする。
  • 音声分析
    • 音声コンテンツを分析する。この機能はユーザーとの対話や、音声認識システムに組み込める。
  • 感情分析
    • テキストや音声、映像など、異なる形式のデータを組み合わせてユーザーの感情を理解する。
  • 感情の込もった音声生成
    • 感情豊かな音声生成ができる。繊細なコミュニケーションに適している。
  • リアルタイム翻訳
    • 異なる複数の言語間のリアルタイム翻訳を実現する。50カ国語以上の言語で使用できる。
  • データ分析
    • 図表の解析と、データやプロンプト(指示文)に基づく図表の作成ができる。
  • ファイルの処理
    • 表計算ツール「Microsoft Excel」など特定形式のファイルをアップロードすると、データの詳細な分析ができる。大量のデータを処理して、意思決定や予測分析に役立てることができる。

 後編は、GPT-4oを使う方法について解説する。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る