「Gemini 2.0」で何が変わる? Googleの“マルチモーダルAI”の実力エージェント機能を強化

Googleは「Gemini 2.0」において、テキストだけではなく画像や音声を生成できる「マルチモーダル出力」機能を実装し、さまざまな面での性能向上を実現した。この進化はAIアシスタントの利用シーンをどう広げるのか。

2025年05月13日 05時00分 公開
[Sean Michael KernerTechTarget]

関連キーワード

人工知能 | Google


 Googleは、2024年12月に主力の大規模言語モデル(LLM)「Gemini」シリーズの「Gemini 2.0」を発表した。「Gemini 1.0」から始まったGeminiシリーズは、Googleにとって「PaLM」(Pathways Language Models)シリーズに代わる存在となった。2024年2月には「Gemini 1.5 Pro」がデビューし、さまざまな機能拡張を重ねた後に、AIエージェントとしての機能を全面的に押し出したGemini 2.0が登場した。どのような進化を遂げたのか。

Gemini 2.0はどう進化した?

 GoogleはGemini 2.0の開発において、複数のステップを経るワークフローを自動化するAIエージェント機能に注力した。AIエージェント機能は、LLMの単純な操作を進化させ、より高度な自動化や適切な出力を追求するために、複数のAIモデルを組み合わせることによって実現する。ワークフローの一部として、メール送信や支払いの実行などの外部機能を呼び出すことも可能だ。

 Gemini 2.0で最初に公開されたのは軽量版の「Gemini 2.0 Flash」だった。2024年12月、GoogleはGemini 2.0 Flashよりも推論能力を高めた試験運用版モデル「Gemini 2.0 Flash Thinking」を発表した。

 こうした派生モデルも含め、Gemini 2.0はテキストや音声などの複数種類のデータを組み合わせて処理できる「マルチモーダル」なLLMだ。テキスト、画像、音声、動画といったコンテンツについて、生成や要約、分析など、さまざまなタスクをこなせる。

 Gemini 2.0は、AIベンダーOpenAIの推論モデル「OpenAI o1」と競合する。先行公開された試験運用版モデル「Gemini 2.0 Flash Thinking」は、思考して推論する能力を強化したGeminiの派生版だ。

新しい機能

 Gemini 2.0は、「Gemini 1.0」と「Gemini 1.5」からの進化を継続し、以下の機能強化を実現している。

  • マルチモーダル出力
    • Googleの従来のLLMとは異なり、Gemini 2.0はテキスト、画像、音声といった形式のコンテンツを生成できる。
  • AIエージェント機能
    • Gemini 2.0はマルチモーダルな理解、コーディング、外部機能の呼び出し、複雑な指示を実行する能力を備え、AIエージェント機能を実現している。
  • Googleサービスとの連携
    • クエリ生成やAIエージェント機能の一環として、「Google検索」「Googleマップ」など、Googleが提供するサービスを呼び出して使用できる。
  • Live API
    • エンドユーザーの画面やデバイスのカメラから取得した音声、動画など、ストリーミングデータをリアルタイムでGemini 2.0に取り込み、処理するAPI(アプリケーションプログラミングインタフェース)を提供する。

Gemini 2.0 Flashとは

 Gemini 2.0で最初に発表されたのが軽量版に当たるGemini 2.0 Flashだ。Gemini 1.5 Flashの後継モデルだが、Gemini 1.5 Proを上回る性能を持つ。

 Gemini 2.0 Flashの主な特徴を以下に示す。

  • 処理速度の向上
    • Googleによると、Gemini 2.0 Flashのベンチマークテストにおける処理速度はGemini 1.5 Proの2倍だ。
  • 精度の向上
    • 複数の科目における回答を評価する「MMLU-Pro」、非公開の競技数学問題「HiddenMath」、ソースコードを生成する「Natural2Code」など、複数のベンチマークテストで、Gemini 2.0 FlashはGemini 1.5 Proよりも好成績を出した。
  • 消費電力効率の向上
    • パフォーマンスの向上は、消費電力効率の向上にもつながる。これはモバイルデバイスでのバッテリー駆動時間の向上につながる可能性がある。

Googleサービスとの連携

 Googleは、同社が提供するサービス全体に、LLMを用いた生成AIを組み込むことを進めている。2025年5月9日時点で、Gemini 2.0は以下のツールで利用可能、または利用可能になる見込みだ。

  • Google検索
    • GoogleはAIモデルによる要約や抜粋を提供する機能「AIによる概要」をGoogle検索に追加した。Gemini 2.0によって、プログラミングや数学、マルチモーダルな検索クエリといった複雑な質問への応答能力が向上した。
  • Google Workspace
    • Geminiは文書作成ツール「Googleドキュメント」、プレゼンテーションツール「Googleスライド」、Web会議ツール「Google Meet」などを含むオフィススイート「Google Workspace」に組み込まれている。Gemini 2.0にアップデートされれば、マルチモーダル出力や複雑なタスクの自動化といった強化が期待できる。
  • Android 搭載デバイス
    • モバイルOS「Android」搭載デバイス、特にGoogleの主力スマートフォン「Google Pixel」シリーズにおいて、モバイルデバイスで動作するLLMの開発を進めることを同社は示している。この取り組みにGemini 2.0が寄与する可能性がある。
  • Google AI Studio
    • AIアプリケーション開発ツール「Google AI Studio」と、機械学習モデル構築支援ツール「Vertex AI」で、Gemini 2.0を使ったマルチモーダルなAIエージェントを開発できるようになることが期待される。

他社サービスとの連携

 従来のGeminiと同様、Gemini 2.0もGoogleのサービス以外で利用する方法がある。

 Google AI StudioとVertex AIを使って、開発者はどこにでもデプロイ(展開)可能なアプリケーションを開発できる。Googleは、APIを使ってGemini 2.0をさまざまなサードパーティー製のアプリケーションと連携できるようにすると語っている。

強化されたAIエージェント機能

 Gemini 2.0では、複雑な状況を理解し、計画を立て、エンドユーザーに代わって自律的に行動するAIエージェント機能が強化された。Googleは優れたAIエージェント体験を実現するためのさまざまな実験的取り組みを推進している。Googleが公表したAIエージェント開発計画を以下に挙げる。

  • Project Astra
    • マルチモーダルエージェントの開発プロジェクト「Project Astra」
    • GoogleはGemini 2.0を使用し、Google検索、Googleマップ、画像認識ツール「Googleレンズ」と連携する新しいエージェント型AIアシスタントツールを構築している。さまざまなアクセントを理解する、複数言語でのリアルタイム会話も可能にする。
  • Project Mariner
    • Webブラウザ用AIエージェントの開発プロジェクト。
    • GoogleはWebブラウザ「Google Chrome」の拡張機能として機能し、Webブラウザ画面の情報を理解して推論してエンドユーザーをナビゲートするAIエージェントの開発を進めている。Webページの閲覧中に、プロンプト(指示や質問)を入力できる設計になっている。
  • Jules
    • コーディングを支援するAIエージェント。
    • ソースコード共有サービス「GitHub」と連携でき、問題のあるソースコードの修正計画を自律的に立てたり、その計画を実行したりできる。
  • ゲームエージェント
    • Googleは、リアルタイムでゲームの分析と提案をするGemini 2.0搭載エージェントを開発中だ。これらのAIエージェントはゲームのプレイ画面を見てゲームの内容を理解し、会話形式でプレイヤーにリアルタイムのアドバイスを送る。ゲームメーカーSupercellの「Clash of Clans」(クラッシュ・オブ・クラン)や「Hay Day」(ヘイ・デイ)など、さまざまなゲームでテスト中だ。

提供時期と料金

 GoogleはGemini 2.0のさまざまなバリエーションを段階的に投入している。以下は2025年5月9日時点の情報だ。

  • Gemini 2.0 Flash
    • ステータス:一般提供中
    • 提供場所:「Gemini API」、Google AI Studio、Vertex AI、アプリケーション版Gemini
    • API料金
      • テキスト/画像/動画入力:0.1ドル/100万トークン
      • 音声入力:0.7ドル/100万トークン
      • 出力:0.4ドル/100万トークン
  • Gemini 2.0 Flash-Lite
    • ステータス:一般提供中
    • 提供場所:Google AI Studio、Vertex AI
    • API料金
      • 入力:0.075ドル/100万トークン
      • 出力:0.3ドル/100万トークン
  • Gemini 2.0 Pro
    • 「Gemini 2.5 Pro」の登場に伴い廃止

TechTarget発 先取りITトレンド

米国Informa TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

Copyright © ITmedia, Inc. All Rights Reserved.

鬯ョ�ォ�ス�エ�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ス�ー鬯ッ�ィ�ス�セ�ス�ス�ス�ケ�ス�ス邵コ�、�つ€鬯ゥ蟷「�ス�「髫エ蜿門セ暦ソス�ス�ス�ク髯キ�エ�ス�・�ス�ス�ス�。鬯ゥ蟷「�ス�「�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�、鬯ゥ蟷「�ス�「髫エ荳サ�ス隶捺サゑスソ�ス�ス�ス�ス�ス�ス�ス鬯ゥ蟷「�ス�「髫エ雜」�ス�「�ス�ス�ス�ス�ス�ス�ス�シ鬯ゥ蟷「�ス�「髫エ荵暦ソス�ス�ス�ス�サ�ス�ス�ス�」�ス�ス�ス�ス�ス�ス�ス�ス

製品レビュー ストックマーク株式会社

AI技術を使って必要な情報を自動で抽出/要約する「情報収集サービス」の実力

日々情報が増え続ける今、業務に必要な全ての情報を、社内外の関連ニュースや論文、特許情報などから収集していくのは至難の業だ。そこで業務に必要な情報を着実に届けるための仕組み作りに役立つサービスを紹介する。

製品資料 ゼットスケーラー株式会社

セキュリティリーダー必見:データセキュリティの複雑化によるリスクの解消方法             

クラウド利用の拡大に伴い、データが分散・肥大化する中、従来のセキュリティ対策の限界が見え始めている。データの所在や利用状況を可視化し、リスクを事前に把握して対応することが求められる今、有効となる新たなアプローチを探る。

市場調査・トレンド ゼットスケーラー株式会社

AI/MLトランザクション分析から読み取る、企業のリスク管理とセキュリティ課題

AIの活用が急速に進む一方で、セキュリティリスクの増大が懸念され、企業の対応が急務となっている。本資料では、2024年2~12月までの5365億件のAI/ML(機械学習)トランザクションの分析に基づき、その実態と対策を多角的に考察する。

事例 富士通株式会社

富士通が実践、AI時代に最適な設計プロセスを実現する方法

製造業の設計現場では、設計プロセスの複雑化などの課題が山積している。こうした中、注目を集めているのが生成AIの活用だ。本資料では、生成AIがもたらす設計業務の未来について、詳しく解説する。

製品資料 富士通株式会社

チャットbotだけで終わらせない、生成AIの“高度な活用”を実現するには?

多くの企業が業務における生成AIの有用性を実感する一方、高度な活用を目指すに当たり、壁に突き当たっているケースは多い。既存の業務やシステムと生成AIをスムーズに組み合わせ、自社に合った形で活用するには、どうすればよいのか。

鬩幢ス「隴主�蜃ス�ス雜」�ス�ヲ鬩幢ス「隰ィ魑エツ€鬩幢ス「隴趣ス「�ス�ス�ス�シ鬩幢ス「�ス�ァ�ス�ス�ス�ウ鬩幢ス「隴趣ス「�ス�ス�ス�ウ鬩幢ス「隴趣ス「�ス�ソ�ス�ス�ス雜」�ス�ヲ鬩幢ス「隴趣ス「�ス�ソ�ス�スPR

From Informa TechTarget

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは

いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。

繧「繧ッ繧サ繧ケ繝ゥ繝ウ繧ュ繝ウ繧ー

2025/05/28 UPDATE

  1. 逕滓�AI繝舌ヶ繝ォ繧貞」翫☆縲檎ャャ3縺ョAI縺ョ蜀ャ縲阪′繧�▲縺ヲ譚・繧狗炊逕ア
  2. 逕滓�AI繝悶�繝�縺ォ蜀キ繧�ーエ繧呈オエ縺ウ縺帙k縲檎ャャ3縺ョAI縺ョ蜀ャ縲阪′繧�▲縺ヲ縺上k逅�罰
  3. AI繧ィ繝シ繧ク繧ァ繝ウ繝域勸蜿翫�骰オ縺ィ縺ェ繧季oogle縺ョ縲窟2A縲阪→縺ッ�溘€€縲勲CP縲阪→縺ョ驕輔>縺ッ
  4. 窶懊≧縺昴▽縺喉I窶昴�縺ゥ縺�ョ。逅�☆縺ケ縺搾シ溘€€IT邂。逅�€�′隗」豸医☆縺ケ縺�3縺、縺ョ繝ェ繧ケ繧ッ
  5. 逕滓�AI縺ョ蟷サ貊�悄縺ァ譏取囓�溘€€縺薙l縺九i縺ョ縲悟享縺ヲ繧倶シ∵・ュ縲阪→縲瑚イ�縺代k莨∵・ュ縲阪�驕輔>
  6. 縲窟I繧ィ繝シ繧ク繧ァ繝ウ繝医€阪→縺ッ邨仙ア€菴戊€�〒縲√€軍PA縲阪→菴輔′驕輔≧縺ョ縺具シ�
  7. AI縺娯€懈悄蠕�、悶l窶昴↓縺ェ繧句次蝗�縺ッ縲御スソ縺医↑縺�ョ繝シ繧ソ縲阪€€謌先棡蜑オ蜃コ縺ォ縺ッ菴輔′蠢�ヲ�シ�
  8. 讀懃エ「AI繝��繝ォ縲訓erplexity縲阪�縺ゥ縺薙∪縺ァ菴ソ縺医k�溘€€迚ケ蠕エ縺ィ遏・縺」縺ヲ縺翫¥縺ケ縺埼剞逡�
  9. ChatGPT縺ョ縲隈PT縲阪→縺ッ�溘€€莉慕オ�∩繧�畑騾斐↑縺ゥ窶廚hatGPT縺ョ蝓コ譛ャ窶昴r隗」隱ャ
  10. 逕滓�AI縺後け繝ゥ繧ヲ繝峨〒縺ッ縺ェ縺上€後Ο繝シ繧ォ繝ォPC縲阪〒縺ゥ縺薙∪縺ァ蜍輔¥縺ョ縺区、懆ィシ縺励※縺ソ縺�

「Gemini 2.0」で何が変わる? Googleの“マルチモーダルAI”の実力:エージェント機能を強化 - TechTargetジャパン エンタープライズAI 鬮ォ�エ�ス�ス�ス�ス�ス�ー鬯ィ�セ�ス�ケ�ス縺、ツ€鬯ョ�ォ�ス�ェ髯区サゑスソ�ス�ス�ス�ス�コ�ス�ス�ス�ス

TechTarget鬩幢ス「�ス�ァ�ス�ス�ス�ク鬩幢ス「隴趣ス「�ス�ス�ス�」鬩幢ス「隴乗��ス�サ�ス�」�ス雜」�ス�ヲ 鬮ォ�エ�ス�ス�ス�ス�ス�ー鬯ィ�セ�ス�ケ�ス縺、ツ€鬯ョ�ォ�ス�ェ髯区サゑスソ�ス�ス�ス�ス�コ�ス�ス�ス�ス

鬯ゥ蟷「�ス�「髫エ蜿門セ暦ソス�ス�ス�ク髯キ�エ�ス�・�ス�ス�ス�。鬯ゥ蟷「�ス�「�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�、鬯ゥ蟷「�ス�「髫エ荳サ�ス隶捺サゑスソ�ス�ス�ス�ス�ス�ス�ス鬯ゥ蟷「�ス�「髫エ雜」�ス�「�ス�ス�ス�ス�ス�ス�ス�シ鬯ゥ蟷「�ス�「髫エ荵暦ソス�ス�ス�ス�サ�ス�ス�ス�」�ス�ス�ス�ス�ス�ス�ス�ス鬯ゥ蟷「�ス�「髫エ雜」�ス�「�ス�ス�ス�ス�ス�ス�ス�ゥ鬯ゥ蟷「�ス�「髫エ雜」�ス�「�ス�ス�ス�ス�ス�ス�ス�ウ鬯ゥ蟷「�ス�「�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�ュ鬯ゥ蟷「�ス�「髫エ雜」�ス�「�ス�ス�ス�ス�ス�ス�ス�ウ鬯ゥ蟷「�ス�「�ス�ス�ス�ァ�ス�ス�ス�ス�ス�ス�ス�ー

2025/05/28 UPDATE

ITmedia マーケティング新着記事

news017.png

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

news027.png

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

news023.png

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...