「Gemini 1.5 Pro」の“8大進化”とは Googleの新LLMは何がすごい?:Geminiシリーズ新モデルを徹底解剖【前編】
GoogleのLLM「Gemini 1.5 Pro」は、「Gemini 1.0」から何が進化したのか。新しい機能や特徴について、8つの視点で何が変わったのかを解説する。
人工知能(AI)ベンダーOpenAIのAIチャットbot「ChatGPT」が2022年に登場し、大規模言語モデル(LLM)の時代が幕を開けた。AIベンダー各社は競争力を高めるべく、さらなる技術開発に力を注いでいる。
Googleは2024年2月、LLM「Gemini 1.5 Pro」を発表した。その前身となるLLM「Gemini 1.0」から何が進化したのか。8つのポイントを紹介する。
「Gemini 1.5 Pro」の“8大進化”とは?
併せて読みたいお薦め記事
LLMの最新動向を解説
Gemini 1.5 Proは、Googleのグループ企業Google DeepMind Technologiesが開発したLLMだ。Googleは同社サービス群にGemini 1.5 Proを組み込む他、エンドユーザーや企業向けに提供する。
Googleは2024年4月、Geminiを利用するためのAPI(アプリケーションプログラミングインタフェース)「Gemini API」経由で、Gemini 1.5 Proのパブリックプレビュー版の提供を開始した。同年5月には、同社のAIチャットbot「Gemini Advanced」からGemini 1.5 Proの提供を開始。同年6月には開発者向けに提供を開始した。
Gemini 1.5 Proでは、「スパース混合エキスパート」(MoE:Mixture of Experts)手法を採用している。ニューラルネットワーク内の最も関連性の高い専門経路を最適化して、効率的に結果を導き出すことができる。これにより、コンピューティング処理を効率化し、応答時間の短縮やコスト削減につなげることができる。Googleによると、Gemini 1.5 Proはより低い計算負荷とコストでGemini 1.0に匹敵する回答精度を発揮するという。
Gemini 1.5 Proにおける機能強化ポイントは以下の通り。
1.コンテキストウィンドウの拡大
コンテキストウィンドウ(生成AIがやりとりの中で保持する情報量)は最大200万トークンと、Gemini 1.0の3万2000トークンから大幅に拡大しており、より長文かつ複雑な入力の理解や推論が可能になった。トークンとはテキストデータを処理する際の基本的な単位で、英語であれば1トークンは4文字程度と考えられる。
2.コンテキスト理解力と回答精度の向上
翻訳やコーディング、推論など、さまざまなタスクにおけるコンテキストの理解能力と回答精度の向上を実現した。
3.マルチモーダル機能の強化
Gemini 1.5 Proは、数値や画像、テキスト、音声など複数種類のデータを組み合わせて、あるいは関連付けて処理できる「マルチモーダルLLM」だ。つまり、さまざまな形式のデータを基にした、テキストベースの回答生成や推論、分析が可能だ。
Gemini 1.0と比較して、Gemini 1.5 Proでは画像や動画の理解力が強化されている。音声入力を直接理解して処理する機能や、外部リンクから動画を取得して内容を分析する機能が追加された。
4.関数呼び出しとJSONモードの強化
画像やテキストなどの非構造化データを基に、構造化データである「JSON」(JavaScript Object Notation)オブジェクトを生成できる。関数呼び出し機能が強化されたため、より複雑な処理を担えるようになった。
5.Googleドライブとの連携
Gemini Advancedのユーザーは、オンラインストレージサービス「Google Drive」(Googleドライブ)からファイルを直接アップロードして、それを基にしたデータ分析や視覚化を実施できる。
6.カスタマイズ機能「Gem」の導入
ユーザーは「Gem」機能を用いて、特定のタスクや個人の好みに合わせて調整されたカスタマイズ版のGeminiを作成できる。
7.各種アプリケーションとの連携強化
Gemini 1.5 Proは音楽配信サービス「YouTube Music」と接続できる。今後は「Googleカレンダー」「Google ToDoリスト」「Google Keep」との連携も計画されている。これにより、例えばイベントの招待状やポスターの写真を撮ると、Gemini 1.5 Proがその画像を解析して、日時や場所などの情報を自動抽出し、Googleカレンダーに予定を追加してくれるといったことも可能になる。
8.「Gemini Live」の導入
「Gemini Live」はモバイルデバイス向けの会話機能。Geminiに話し掛けると、音声で回答してくれる。ユーザーは質問を途中で考え直したり、別の質問に切り替えたりすることもできる。GoogleはGemini LiveをGemini Advancedのユーザー向けに提供する計画だ。
後編は、Gemini 1.5 Proのプランやアクセス方法について解説する。
TechTarget発 先取りITトレンド
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.