「OpenAI o1」の実力は? 苦手だった“あの問題”をついに克服?さらなる進化を遂げたOpenAIのLLM【前編】

2024年7月、OpenAIは“Strawberry”というコードネームの新モデルを発表し、同年9月にその新モデルを「OpenAI o1」として提供開始した。その実力とは。

2024年11月06日 07時30分 公開
[Sean Michael KernerTechTarget]

関連キーワード

人工知能


 2024年7月頃、OpenAIが「Strawberry」というコードネームのAIモデルを開発していると話題になった。当初、Strawberryが「GPT-4o」の後継なのか、全く別のモデルなのかは不明だった。同年9月、同社は新モデル「OpenAI o1」を正式に発表し、ついにStrawberryの正体が明らかになった。OpenAI o1はこれまでのモデルと何が違い、どのようなユースケースに適するのか。

「OpenAI o1」の実力は? “あの問題”は大幅に改善

 OpenAIの他のLLMと同様、OpenAI o1は深層学習モデル「Transformer」(トランスフォーマー)をベースにしており、文章要約やコンテンツ生成、質問への回答、ソースコードの記述といったタスクをこなすことができる。

 OpenAI o1の大きな特徴は、強化された推論能力だ。時間をかけて問題解決の最適なアプローチを考えることができ、複雑なクエリや、複数段階の推論が必要な問題にも対処できる。OpenAIは推論能力を強化するに当たり、Chain-of-Thought(CoT:思考の連鎖)プロンプティングを採用した。これは、まずLLMに問題の解き方を考えるよう指示して、そのステップを一つずつ説明させる手法だ。段階的に問題を解くことで、LLMは精度の高い回答を出力できる。

 2024年10月時点で、OpenAI o1にはプレビュー版の「OpenAI o1-preview」と、軽量版モデル「OpenAI o1-mini」がある。OpenAI o1-previewは複雑な問題を解くのが得意で、OpenAI o1-miniは小型モデルのためコストパフォーマンスに優れる特徴を持つ。

OpenAI o1のユースケースとは?

 OpenAI o1に適するユースケースとして以下のようなものがある。

  • 複雑な問題の推論
    • OpenAI o1は、特にSTEM(科学、技術、工学、数学)分野の複雑なタスクをこなせるように最適化されている。
  • 科学研究
    • OpenAI o1は細胞の塩基配列データにラベル付けをしたり、量子光学分野の複雑な数式を扱ったりする上で役に立つ。
  • コーディング
    • OpenAIによると、OpenAI o1はプログラムの生成やバグの修正が得意で、「HumanEval」「Codeforces」などのベンチマークテストで優れた成績を収めている。複数のプロセスが必要な作業についても、高精度で支援が可能だ。
  • 数学
    • OpenAI o1は数学分野で優れた力を発揮しており、国際数学オリンピックの予選で83%の正答率を達成している。一方、GPT-4oの正答率は13%だった。
    • 「American Invitational Mathematics Examination 」(AIME)など、他の数学コンテストでもその能力は実証されており、物理学の分野で使われる複雑な数式を生成する助けになる可能性もある。
  • セルフファクトチェック
    • OpenAI o1は生成した回答が正しいかどうかを確認するセルフファクトチェックという仕組みを回答精度の向上に役立てている。
  • アイデアの創出
    • 創造的なアイデアや解決策を生み出す上でも価値を発揮する。

 次回は、OpenAI o1の利用方法や機能面、安全性について細かく見ていく。

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

From Informa TechTarget

お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。

ITmedia マーケティング新着記事

news066.jpg

Metaに潰されないために残された生き残りの道は?――2025年のSNS大予測(Snapchat編)
若年層に人気のSnapchatだが、大人にはあまり浸透していない。一方で、AR(拡張現実)開...

news150.jpg

「猛暑」「米騒動」「インバウンド」の影響は? 2024年に最も売り上げが伸びたものランキング
小売店の推定販売金額の伸びから、日用消費財の中で何が売れたのかを振り返るランキング...

news110.jpg

Netflixコラボが止まらない 「イカゲーム」シーズン2公開で人気爆上がり必至のアプリとは?
Duolingoは言語学習アプリとNetflixの大人気ドラマを結び付けたキャンペーンを展開。屋外...