検索
特集/連載

Googleの生成AI「Gemini」とは 使える機能や用途、「GPT」との違いは?Geminiの基本を解説

Googleの大規模言語モデル(LLM)「Gemini」にはどのような機能があり、何に役立つのか。機能や用途、他の生成AIとの違いなど、Geminiの基本を紹介する。

Share
Tweet
LINE
Hatena

関連キーワード

Google | チャットbot | 機械学習


 「Gemini」は、Googleが設計したLLM(大規模言語モデル)だ。Geminiは自然言語処理(NLP)と機械学習を使用して人間の会話を再現する。以前は「Bard」という名称だったが、同社は2024年2月に名称を変更した。

 Googleの検索サービス「Google Search」においては、Geminiはユーザーが望む検索結果を得られるように補助する。Webサイトやメッセージングツール、アプリケーションとGeminiを連携させることも可能だ。

 Geminiは自然言語、音声、ソースコード、映像などを理解する能力を持つ、マルチモーダル(テキストや音声などの複数種類のデータを組み合わせて処理できること)なLLMだ。最初のバージョンである「Gemini 1.0」は、2023年12月に発表された。同モデルはGoogleの親会社Alphabet傘下でAI技術の研究開発を手掛けるGoogle DeepMind Technologiesが開発した。

 Gemini は、自然言語を理解して処理するNLP機能に加え、入力された画像を理解して認識する機能も搭載する。そのため外部の光学式文字認識(OCR)システムを必要とせずに、グラフや図、写真などの画像を解析できる。多言語で利用でき、翻訳に使うことも可能だ。

 Geminiはクロスモーダル(異なる要素が互いに影響を与え合うこと)な推論が可能だ。音声や画像、テキストなどの、異なる種類の入力データを組み合わせて推論できる。

Geminiはどのように動作するのか

 Geminiは、大規模な学習データ群で訓練を受けている。訓練後はユーザーの入力内容を理解して質問に答えるために、幾つかのニューラルネットワーク技術(人間の脳の神経回路を模倣した機械学習技術)を使用している。

 学習と推論の両方で、GeminiはGoogleが開発した機械学習向けの集積回路「Cloud Tensor Processing Unit」(TPU)を利用している。

 LLMの主な課題として、出力結果にバイアス(偏見)や有害なコンテンツが含まれる可能性があることが挙げられる。Googleが公開するAI原則によると、Geminiをはじめとした同社のAIはこれらのリスクを抑えるために、安全性を確保するための開発手法を採用し、LLMに対する継続的な監視やテストを実施している。

 Geminiは用途や利用規模に合わせて複数のモデルを用意している。2024年7月時点では、「Gemini Ultra」「Gemini Pro」「Gemini Nano」「Gemini Flash」の4種類がある。最上位モデルの「Gemini Ultra」は物理学の推論や大量の科学論文の検索といった、複雑なタスクを高速で処理する。

 Gemini Proは、より幅広い用途への利用を想定している。2023年12月に、Googleは同社のAIアプリケーション開発ツール「Vertex AI」と「Google AI Studio」でGemini Proを利用可能にした。Googleのプログラミング用生成AI「AlphaCode 2」は、Gemini Proの技術に基づいている。

 Gemini Nanoはモバイルデバイスで実行するのに適したモデルだ。デバイスがインターネットに接続されているかどうかにかかわらず、迅速な応答ができるように設計されている。Googleのスマートフォン「Google Pixel 8 Pro」はGemini Nanoが組み込まれているデバイスの一つだ。

 Gemini FlashはGeminiの軽量モデルで、Vertex AIの利用料金が他のGeminiモデルと比較して抑えられていることが特徴だ。

Gemini(旧Bard)誕生の歴史

 Googleは2023年2月にBardを発表し、同年5月に180以上の国と地域で一般提供を開始した。2024年2月、BardはGeminiに改称した。

 2023年2月にGoogleが一般提供に先駆けてBardを発表したのは、OpenAIの生成AIアプリケーション「ChatGPT」の発表を受けて、それに対抗する狙いがあったからだとみられる。

 GoogleがBardを発表したことについては、時期尚早だったという声がある。例えばGoogleとAlphabetのCEOであるスンダー・ピチャイ氏は2023年2月にBardを実演して見せた際、Bardはユーザーの質問に対して事実と異なる回答をしたからだ。この実演では、あるユーザーがBardに対して「ジェームズ・ウェッブ宇宙望遠鏡(JWST)からの新たな発見を9歳の子供に伝えることができますか」と質問した。Bardは「ジェームズ・ウェッブ宇宙望遠鏡は太陽系外の惑星の最初の写真を撮った」と回答した。しかし天文学者らは最初の太陽系外惑星の画像は2004年に地上の観測所で撮影されており、Bardの答えが間違っていると指摘した。同年2月8日(現地時間)の米国株式市場でGoogleの時価総額が1000億ドル下落したのは、この騒動が一因だと考えられる。

Google Geminiは誰が使えるのか

 Geminiは世界中で利用可能だ。ただしAI技術に関する各国の法規制に合わせて、年齢制限が設けられている。GeminiのWebアプリケーションの場合、欧州経済領域(EEA)、スイス、カナダ、英国では18歳以上、その他のほとんどの国では13歳以上であればGeminiを使うことができる。ただし18歳未満のユーザーは、英語でのみGeminiのWebアプリケーションを使用できる。ユーザーはGeminiを利用するために、自身のGoogleアカウントを持っている必要がある。

Geminiの利用料金

 2024年7月時点で、Gemini ProとGemini Nanoは登録後無料で使用できる。月額20ドルの「Gemini Advanced」プランに加入すると、Gemini Ultraが利用できるようになる。同プランはGemini AdvancedのWebアプリケーションでプログラミング言語「Python」のソースコードを編集、実行する機能や、Googleのストレージサービス「Google One」の2TB分のストレージが含まれている。

Geminiの主な用途

 Geminiはテキストや画像、音声、ビデオなどのデータを理解したり、これらの異なる形式の入力データを組み合わせて、それを基に出力を生成したりすることが可能だ。

 業務にGeminiを使用すれば、次のようなさまざまなタスクを実行できる。

  • テキストの要約や生成
    • さまざまなタイプのデータからコンテンツを要約したり、ユーザーのプロンプト(情報を生成するための質問や指示)に基づいてテキストを生成したりする。チャットbotに組み込むことで、質問への自動回答にも利用できる。
  • テキスト翻訳
    • 100カ国語以上の言語を理解し、翻訳を実行する。
  • 画像の理解
    • 外付けのOCRツールを使用せずに、チャートや図、ダイヤグラムなどの複雑な画像や図形を解析する。画像のキャプション作成や、画像を用いた質疑応答をする。
  • 音声処理
    • さまざまな言語の音声認識や、音声翻訳などのタスクを実行する。
  • 映像の理解
    • 入力された動画の内容を理解して、質問に答えたり説明を生成したりする。
  • ソースコードの分析や生成
    • 「Python」「Java」「C++」「Go」などの一般的なプログラミング言語のソースコードを、入力されたプロンプトに合わせて生成する。
  1. 06#Geminiのリスクとデメリット

Geminiのリスクとデメリット

 Geminiには幾つかのリスクや欠点がある。その一つが、LLMの学習が不十分になる可能性があることだ。全てのAI技術と同様に、Geminiは正確な答えを出すために学習する必要がある。その際に、不正確な情報や間違った情報ではなく、正確な情報で学習させる必要がある。ユーザーは間違った情報が出力されたときに、それを識別する必要がある。

 バイアスが入り込むことも、他のAIモデルと同様、Geminiに残る課題だ。Googleは、全てのGemini モデルが人間にとって危険な回答をするリスクを抑えるために、同社のAI原則に基づいて開発されていると主張している。

Geminiと「GPT-3」「GPT-4」を比較

 OpenAIのLLM「GPT-3」「GPT-4」は、Geminiと競合するLLMだ。以下の表は、GeminiとGPT-3、GPT-4の主な特徴を表している。

Gemini GPT-3とGPT-4
開発企業 Google DeepMind OpenAI
チャットbotのインタフェース Gemini ChatGPT
方式 テキストと画像、音声、ビデオを処理できるマルチモーダル GPT-4はマルチモーダルだが、開発当初のGPTはテキストのみを扱っていた
モデルの種類 UltraとPro、Nano GPT-3.5 Turbo、GPT-4 Turboなど
コンテキストウィンドウ(生成AIがやりとりの中で保持する情報量)の長さ 3万2000トークン 3万2000トークン

GeminiとChatGPTはどちらを利用すべきか

 GeminiとChatGPTは、人々との対話を実現するチャットbot機能を備えている。両者とも、検索システムのユーザー体験を向上させたり、Webサイトの情報を収集して新しい情報を回答に取り入れたりするために使われている。2023年1月にMicrosoftはOpenAIに総額100億ドルを出資して、同社との関係性を深めている。Microsoftは検索エンジンの「Bing」にGPT-4を組み込み、ユーザーとの対話に基づいた検索結果を提供できるようにした。Geminiは2024年7月時点で、「Search Labs」としてGoogle Searchで試験的に利用可能だ。

 GeminiとChatGPTは共に、出力されたコンテンツが他の出典元から盗用されたコンテンツである可能性がある。両サービスとも、出力結果がオリジナルであることを検証するための盗用検出機能は、標準機能として搭載されていない。ただしAIツールが生成したコンテンツの盗作を検出するためのサードパーティーのツールが利用できる。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る