GoogleのLLM「Gemini 1.5 Pro」は、「Gemini 1.0」から何が進化したのか。新しい機能や特徴について、8つの視点で何が変わったのかを解説する。
人工知能(AI)ベンダーOpenAIのAIチャットbot「ChatGPT」が2022年に登場し、大規模言語モデル(LLM)の時代が幕を開けた。AIベンダー各社は競争力を高めるべく、さらなる技術開発に力を注いでいる。
Googleは2024年2月、LLM「Gemini 1.5 Pro」を発表した。その前身となるLLM「Gemini 1.0」から何が進化したのか。8つのポイントを紹介する。
Gemini 1.5 Proは、Googleのグループ企業Google DeepMind Technologiesが開発したLLMだ。Googleは同社サービス群にGemini 1.5 Proを組み込む他、エンドユーザーや企業向けに提供する。
Googleは2024年4月、Geminiを利用するためのAPI(アプリケーションプログラミングインタフェース)「Gemini API」経由で、Gemini 1.5 Proのパブリックプレビュー版の提供を開始した。同年5月には、同社のAIチャットbot「Gemini Advanced」からGemini 1.5 Proの提供を開始。同年6月には開発者向けに提供を開始した。
Gemini 1.5 Proでは、「スパース混合エキスパート」(MoE:Mixture of Experts)手法を採用している。ニューラルネットワーク内の最も関連性の高い専門経路を最適化して、効率的に結果を導き出すことができる。これにより、コンピューティング処理を効率化し、応答時間の短縮やコスト削減につなげることができる。Googleによると、Gemini 1.5 Proはより低い計算負荷とコストでGemini 1.0に匹敵する回答精度を発揮するという。
Gemini 1.5 Proにおける機能強化ポイントは以下の通り。
コンテキストウィンドウ(生成AIがやりとりの中で保持する情報量)は最大200万トークンと、Gemini 1.0の3万2000トークンから大幅に拡大しており、より長文かつ複雑な入力の理解や推論が可能になった。トークンとはテキストデータを処理する際の基本的な単位で、英語であれば1トークンは4文字程度と考えられる。
翻訳やコーディング、推論など、さまざまなタスクにおけるコンテキストの理解能力と回答精度の向上を実現した。
Gemini 1.5 Proは、数値や画像、テキスト、音声など複数種類のデータを組み合わせて、あるいは関連付けて処理できる「マルチモーダルLLM」だ。つまり、さまざまな形式のデータを基にした、テキストベースの回答生成や推論、分析が可能だ。
Gemini 1.0と比較して、Gemini 1.5 Proでは画像や動画の理解力が強化されている。音声入力を直接理解して処理する機能や、外部リンクから動画を取得して内容を分析する機能が追加された。
画像やテキストなどの非構造化データを基に、構造化データである「JSON」(JavaScript Object Notation)オブジェクトを生成できる。関数呼び出し機能が強化されたため、より複雑な処理を担えるようになった。
Gemini Advancedのユーザーは、オンラインストレージサービス「Google Drive」(Googleドライブ)からファイルを直接アップロードして、それを基にしたデータ分析や視覚化を実施できる。
ユーザーは「Gem」機能を用いて、特定のタスクや個人の好みに合わせて調整されたカスタマイズ版のGeminiを作成できる。
Gemini 1.5 Proは音楽配信サービス「YouTube Music」と接続できる。今後は「Googleカレンダー」「Google ToDoリスト」「Google Keep」との連携も計画されている。これにより、例えばイベントの招待状やポスターの写真を撮ると、Gemini 1.5 Proがその画像を解析して、日時や場所などの情報を自動抽出し、Googleカレンダーに予定を追加してくれるといったことも可能になる。
「Gemini Live」はモバイルデバイス向けの会話機能。Geminiに話し掛けると、音声で回答してくれる。ユーザーは質問を途中で考え直したり、別の質問に切り替えたりすることもできる。GoogleはGemini LiveをGemini Advancedのユーザー向けに提供する計画だ。
後編は、Gemini 1.5 Proのプランやアクセス方法について解説する。
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
労働力不足の解消や生産性の向上など、多くのメリットが見込める、職場へのAI導入。一方、LLM(大規模言語モデル)の学習データが枯渇する「2026年問題」が懸念されている点には注意が必要だ。それによる影響と、企業が取るべき対策とは?
現代のビジネス環境下で企業が成長を続けるには「イノベーション」の推進が不可欠だ。最新調査で明らかになった日本企業におけるイノベーションの現状を基に、イノベーション推進の鍵を握るAI活用やベロシティ向上の重要性を解説する。
今やビジネスを中心に、多様な場面でやりとりされているPDF。このPDFをより便利にするためには、文書の能動的な活用がポイントとなる。本資料では、アドビの生成AIを用いながら生産性や効率を飛躍的に向上させる活用方法を紹介する。
適切に生成AIを使いこなすために、情報には「共有範囲」を設定することが重要となるが、管理が不十分だと“過剰共有”の状況が発生する。過剰共有は社内での情報漏えいにつながる可能性もあるため、十分な対策が必要となる。
生成AIの活用には機密情報漏えいなどのリスクがあるため、利用を制限しているケースもある。しかし、完全に利用を制限してしまうと競合に後れを取る可能性がある。そこで重要なのが、セキュリティと利便性を両立できるような環境構築だ。
お知らせ
米国TechTarget Inc.とInforma Techデジタル事業が業務提携したことが発表されました。TechTargetジャパンは従来どおり、アイティメディア(株)が運営を継続します。これからも日本企業のIT選定に役立つ情報を提供してまいります。
「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年4月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...
Cookieを超える「マルチリターゲティング」 広告効果に及ぼす影響は?
Cookieレスの課題解決の鍵となる「マルチリターゲティング」を題材に、AI技術によるROI向...