OpenAIの大規模言語モデル(LLM)「GPT-4」は、「GPT-3」などの同社製LLMとは何が違うのか。GPT-4の主な機能や利用方法を説明する。
「GPT-4」はAI(人工知能)ベンダーOpenAIが開発した大規模言語モデル(LLM)だ。テキストや画像の入力内容を基にテキストを生成する。OpenAIは米国のAI開発企業で、画像処理AIモデルの「Dall-E」やAIチャットbotサービスの「ChatGPT」、GPT-4の前バージョンのLLMである「GPT-3」などを開発している。過去のGPTモデルよりも複雑なタスクを処理できるのが、GPT-4の特徴だ。
GPT-4は「Generative Pre-Trained Transformer 4」の略称だ。GPTは、人間のようなテキストで入力に応答するLLMで、以下の特徴がある。
GPTの処理能力は、そのモデルが持つパラメーター(機械学習の調整に利用するための数値)の数と共に向上する。新しいGPTモデルは、一般的に前のモデルよりも多くのパラメーターを持っている。「GPT-1」は1億1700万個、GPT-2は15億個、GPT-3は1750億個以上のパラメーターを持っている。GPT-4のパラメーターの正確な数は不明だが、1兆個以上のパラメーターを持つと推測されている。
2023年秋にOpenAIはGPT-4の改良版である「GPT-4 Turbo」を発表した。従来のGPT-4の回答は2022年1月までの情報に基づいていたが、GPT-4 Turboでは2023年4月までの情報に基づいた答えを提供できるようになった。画像分析機能の「GPT-4 Turbo with Vision」も追加された。このバージョンではモデルのコンテキストウィンドウ(AIモデルが一度に処理できるテキストの範囲)が拡大した。ChatGPTと他システムの連携サービスである「ChatGPT API」の入出力トークン(GPTが処理するテキストの単位)ごとの料金はGPT-4と比較して抑えられているため、開発者はLLMの利用コストを削減できるようになった。
2024年5月、OpenAIは新バージョンの「GPT-4 Omni」(GPT-4o)を発表した。これにより応答速度や、音声と画像、テキストを認識する能力がさらに向上した。GPT-4oは画面や音声、テキストを同時に処理できるため、ユーザーが画面や機能を切り替える必要がなくなった。GPT-4oは、一般消費者向けと開発者向けの各種サービスで利用可能だ。
各GPTのモデルは、人間からのフィードバックを用いた強化学習を使って訓練されている。モデルは望ましい行動やルールを順守した時に報酬を得る仕組みだ。GPT-4は人類にとって有害な回答を出すことを防ぐための学習も実施している。しかし他の言語モデルと同様に、GPT-4は事実とは異なる情報を出力する幻覚(ハルシネーション)を起こしたり、バグのあるソースコードを生成したりすることがある。人種や性別による偏見の影響を受けた回答を出力する可能性もある。
OpenAIはGPT-4の技術論文で、セキュリティに関する理由と、競争が激化する市場の状況から、システムの訓練に使われた学習データの内容を公開しないと述べている。しかし同社は、GPT-4がWebに公開されているデータと、第三者からライセンスを得たデータの双方で訓練されたことを認めている。
GPT-3は、テキスト処理専用に設計されているLLMだ。GPT-4はマルチモーダルなLLMで、テキストや画像、音声などの複数の種類のデータを一度に処理できる。
GPT-4とGPT-3の主な違いは以下の通りだ。
Copyright © ITmedia, Inc. All Rights Reserved.
お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。
主戦場は「テレビ画面」へ YouTube20周年でCEOが公開書簡を公開
20周年を迎えるYouTubeが、クリエイターとユーザーの双方にとってより魅力的で革新的なプ...
都道府県別ライフスタイル調査 「推し活好き」「ラーメン好き」最多は?
明治安田総合研究所が公表した都道府県別「ライフスタイルに関するアンケート調査」の結...
Metaの広告はますますAI中心に 新たなツール「最適化スコア」とは?
Metaの2025年ビジネス注力領域とAIを活用したツールをはじめとした広告ソリューションの...