OpenAIの大規模言語モデル(LLM)「GPT-4」は、「GPT-3」などの同社製LLMとは何が違うのか。GPT-4の主な機能や利用方法を説明する。
「GPT-4」はAI(人工知能)ベンダーOpenAIが開発した大規模言語モデル(LLM)だ。テキストや画像の入力内容を基にテキストを生成する。OpenAIは米国のAI開発企業で、画像処理AIモデルの「Dall-E」やAIチャットbotサービスの「ChatGPT」、GPT-4の前バージョンのLLMである「GPT-3」などを開発している。過去のGPTモデルよりも複雑なタスクを処理できるのが、GPT-4の特徴だ。
GPT-4は「Generative Pre-Trained Transformer 4」の略称だ。GPTは、人間のようなテキストで入力に応答するLLMで、以下の特徴がある。
GPTの処理能力は、そのモデルが持つパラメーター(機械学習の調整に利用するための数値)の数と共に向上する。新しいGPTモデルは、一般的に前のモデルよりも多くのパラメーターを持っている。「GPT-1」は1億1700万個、GPT-2は15億個、GPT-3は1750億個以上のパラメーターを持っている。GPT-4のパラメーターの正確な数は不明だが、1兆個以上のパラメーターを持つと推測されている。
2023年秋にOpenAIはGPT-4の改良版である「GPT-4 Turbo」を発表した。従来のGPT-4の回答は2022年1月までの情報に基づいていたが、GPT-4 Turboでは2023年4月までの情報に基づいた答えを提供できるようになった。画像分析機能の「GPT-4 Turbo with Vision」も追加された。このバージョンではモデルのコンテキストウィンドウ(AIモデルが一度に処理できるテキストの範囲)が拡大した。ChatGPTと他システムの連携サービスである「ChatGPT API」の入出力トークン(GPTが処理するテキストの単位)ごとの料金はGPT-4と比較して抑えられているため、開発者はLLMの利用コストを削減できるようになった。
2024年5月、OpenAIは新バージョンの「GPT-4 Omni」(GPT-4o)を発表した。これにより応答速度や、音声と画像、テキストを認識する能力がさらに向上した。GPT-4oは画面や音声、テキストを同時に処理できるため、ユーザーが画面や機能を切り替える必要がなくなった。GPT-4oは、一般消費者向けと開発者向けの各種サービスで利用可能だ。
各GPTのモデルは、人間からのフィードバックを用いた強化学習を使って訓練されている。モデルは望ましい行動やルールを順守した時に報酬を得る仕組みだ。GPT-4は人類にとって有害な回答を出すことを防ぐための学習も実施している。しかし他の言語モデルと同様に、GPT-4は事実とは異なる情報を出力する幻覚(ハルシネーション)を起こしたり、バグのあるソースコードを生成したりすることがある。人種や性別による偏見の影響を受けた回答を出力する可能性もある。
OpenAIはGPT-4の技術論文で、セキュリティに関する理由と、競争が激化する市場の状況から、システムの訓練に使われた学習データの内容を公開しないと述べている。しかし同社は、GPT-4がWebに公開されているデータと、第三者からライセンスを得たデータの双方で訓練されたことを認めている。
GPT-3は、テキスト処理専用に設計されているLLMだ。GPT-4はマルチモーダルなLLMで、テキストや画像、音声などの複数の種類のデータを一度に処理できる。
GPT-4とGPT-3の主な違いは以下の通りだ。
Copyright © ITmedia, Inc. All Rights Reserved.
なぜ料理の失敗写真がパッケージに? クノールが展開する「ジレニアル世代」向けキャンペーンの真意
調味料ブランドのKnorr(クノール)は季節限定のホリデーマーケティングキャンペーン「#E...
業界トップランナーが語る「イベントDX」 リアルもオンラインも、もっと変われる
コロナ禍を経て、イベントの在り方は大きく変わった。データを駆使してイベントの体験価...
SEOを強化するサイトの9割超が表示速度を重視 で、対策にいくら投資している?
Reproが「Webサイトの表示速度改善についての実態調査 2024」レポートを公開。表示速度改...