「Gemini 2.0」で何が変わる? Googleの“マルチモーダルAI”の実力エージェント機能を強化

Googleは「Gemini 2.0」において、テキストだけではなく画像や音声を生成できる「マルチモーダル出力」機能を実装し、さまざまな面での性能向上を実現した。この進化はAIアシスタントの利用シーンをどう広げるのか。

2025年05月13日 05時00分 公開
[Sean Michael KernerTechTarget]

関連キーワード

人工知能 | Google


 Googleは、2024年12月に主力の大規模言語モデル(LLM)「Gemini」シリーズの「Gemini 2.0」を発表した。「Gemini 1.0」から始まったGeminiシリーズは、Googleにとって「PaLM」(Pathways Language Models)シリーズに代わる存在となった。2024年2月には「Gemini 1.5 Pro」がデビューし、さまざまな機能拡張を重ねた後に、AIエージェントとしての機能を全面的に押し出したGemini 2.0が登場した。どのような進化を遂げたのか。

Gemini 2.0はどう進化した?

 GoogleはGemini 2.0の開発において、複数のステップを経るワークフローを自動化するAIエージェント機能に注力した。AIエージェント機能は、LLMの単純な操作を進化させ、より高度な自動化や適切な出力を追求するために、複数のAIモデルを組み合わせることによって実現する。ワークフローの一部として、メール送信や支払いの実行などの外部機能を呼び出すことも可能だ。

 Gemini 2.0で最初に公開されたのは軽量版の「Gemini 2.0 Flash」だった。2024年12月、GoogleはGemini 2.0 Flashよりも推論能力を高めた試験運用版モデル「Gemini 2.0 Flash Thinking」を発表した。

 こうした派生モデルも含め、Gemini 2.0はテキストや音声などの複数種類のデータを組み合わせて処理できる「マルチモーダル」なLLMだ。テキスト、画像、音声、動画といったコンテンツについて、生成や要約、分析など、さまざまなタスクをこなせる。

 Gemini 2.0は、AIベンダーOpenAIの推論モデル「OpenAI o1」と競合する。先行公開された試験運用版モデル「Gemini 2.0 Flash Thinking」は、思考して推論する能力を強化したGeminiの派生版だ。

新しい機能

 Gemini 2.0は、「Gemini 1.0」と「Gemini 1.5」からの進化を継続し、以下の機能強化を実現している。

  • マルチモーダル出力
    • Googleの従来のLLMとは異なり、Gemini 2.0はテキスト、画像、音声といった形式のコンテンツを生成できる。
  • AIエージェント機能
    • Gemini 2.0はマルチモーダルな理解、コーディング、外部機能の呼び出し、複雑な指示を実行する能力を備え、AIエージェント機能を実現している。
  • Googleサービスとの連携
    • クエリ生成やAIエージェント機能の一環として、「Google検索」「Googleマップ」など、Googleが提供するサービスを呼び出して使用できる。
  • Live API
    • エンドユーザーの画面やデバイスのカメラから取得した音声、動画など、ストリーミングデータをリアルタイムでGemini 2.0に取り込み、処理するAPI(アプリケーションプログラミングインタフェース)を提供する。

Gemini 2.0 Flashとは

 Gemini 2.0で最初に発表されたのが軽量版に当たるGemini 2.0 Flashだ。Gemini 1.5 Flashの後継モデルだが、Gemini 1.5 Proを上回る性能を持つ。

 Gemini 2.0 Flashの主な特徴を以下に示す。

  • 処理速度の向上
    • Googleによると、Gemini 2.0 Flashのベンチマークテストにおける処理速度はGemini 1.5 Proの2倍だ。
  • 精度の向上
    • 複数の科目における回答を評価する「MMLU-Pro」、非公開の競技数学問題「HiddenMath」、ソースコードを生成する「Natural2Code」など、複数のベンチマークテストで、Gemini 2.0 FlashはGemini 1.5 Proよりも好成績を出した。
  • 消費電力効率の向上
    • パフォーマンスの向上は、消費電力効率の向上にもつながる。これはモバイルデバイスでのバッテリー駆動時間の向上につながる可能性がある。

Googleサービスとの連携

 Googleは、同社が提供するサービス全体に、LLMを用いた生成AIを組み込むことを進めている。2025年5月9日時点で、Gemini 2.0は以下のツールで利用可能、または利用可能になる見込みだ。

  • Google検索
    • GoogleはAIモデルによる要約や抜粋を提供する機能「AIによる概要」をGoogle検索に追加した。Gemini 2.0によって、プログラミングや数学、マルチモーダルな検索クエリといった複雑な質問への応答能力が向上した。
  • Google Workspace
    • Geminiは文書作成ツール「Googleドキュメント」、プレゼンテーションツール「Googleスライド」、Web会議ツール「Google Meet」などを含むオフィススイート「Google Workspace」に組み込まれている。Gemini 2.0にアップデートされれば、マルチモーダル出力や複雑なタスクの自動化といった強化が期待できる。
  • Android 搭載デバイス
    • モバイルOS「Android」搭載デバイス、特にGoogleの主力スマートフォン「Google Pixel」シリーズにおいて、モバイルデバイスで動作するLLMの開発を進めることを同社は示している。この取り組みにGemini 2.0が寄与する可能性がある。
  • Google AI Studio
    • AIアプリケーション開発ツール「Google AI Studio」と、機械学習モデル構築支援ツール「Vertex AI」で、Gemini 2.0を使ったマルチモーダルなAIエージェントを開発できるようになることが期待される。

他社サービスとの連携

 従来のGeminiと同様、Gemini 2.0もGoogleのサービス以外で利用する方法がある。

 Google AI StudioとVertex AIを使って、開発者はどこにでもデプロイ(展開)可能なアプリケーションを開発できる。Googleは、APIを使ってGemini 2.0をさまざまなサードパーティー製のアプリケーションと連携できるようにすると語っている。

強化されたAIエージェント機能

 Gemini 2.0では、複雑な状況を理解し、計画を立て、エンドユーザーに代わって自律的に行動するAIエージェント機能が強化された。Googleは優れたAIエージェント体験を実現するためのさまざまな実験的取り組みを推進している。Googleが公表したAIエージェント開発計画を以下に挙げる。

  • Project Astra
    • マルチモーダルエージェントの開発プロジェクト「Project Astra」
    • GoogleはGemini 2.0を使用し、Google検索、Googleマップ、画像認識ツール「Googleレンズ」と連携する新しいエージェント型AIアシスタントツールを構築している。さまざまなアクセントを理解する、複数言語でのリアルタイム会話も可能にする。
  • Project Mariner
    • Webブラウザ用AIエージェントの開発プロジェクト。
    • GoogleはWebブラウザ「Google Chrome」の拡張機能として機能し、Webブラウザ画面の情報を理解して推論してエンドユーザーをナビゲートするAIエージェントの開発を進めている。Webページの閲覧中に、プロンプト(指示や質問)を入力できる設計になっている。
  • Jules
    • コーディングを支援するAIエージェント。
    • ソースコード共有サービス「GitHub」と連携でき、問題のあるソースコードの修正計画を自律的に立てたり、その計画を実行したりできる。
  • ゲームエージェント
    • Googleは、リアルタイムでゲームの分析と提案をするGemini 2.0搭載エージェントを開発中だ。これらのAIエージェントはゲームのプレイ画面を見てゲームの内容を理解し、会話形式でプレイヤーにリアルタイムのアドバイスを送る。ゲームメーカーSupercellの「Clash of Clans」(クラッシュ・オブ・クラン)や「Hay Day」(ヘイ・デイ)など、さまざまなゲームでテスト中だ。

提供時期と料金

 GoogleはGemini 2.0のさまざまなバリエーションを段階的に投入している。以下は2025年5月9日時点の情報だ。

  • Gemini 2.0 Flash
    • ステータス:一般提供中
    • 提供場所:「Gemini API」、Google AI Studio、Vertex AI、アプリケーション版Gemini
    • API料金
      • テキスト/画像/動画入力:0.1ドル/100万トークン
      • 音声入力:0.7ドル/100万トークン
      • 出力:0.4ドル/100万トークン
  • Gemini 2.0 Flash-Lite
    • ステータス:一般提供中
    • 提供場所:Google AI Studio、Vertex AI
    • API料金
      • 入力:0.075ドル/100万トークン
      • 出力:0.3ドル/100万トークン
  • Gemini 2.0 Pro
    • 「Gemini 2.5 Pro」の登場に伴い廃止

TechTarget発 先取りITトレンド

米国Informa TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...