Googleの生成AI「Gemini」とは　使える機能や用途、「GPT」との違いは？：Geminiの基本を解説

Googleの大規模言語モデル（LLM）「Gemini」にはどのような機能があり、何に役立つのか。機能や用途、他の生成AIとの違いなど、Geminiの基本を紹介する。

≫ 2024年07月19日 17時00分公開

[Cameron Hashemi-Pour, Sean Michael Kerner, Andy Patrizio，TechTarget]

Geminiはどのように動作するのか

　Geminiは、大規模な学習データ群で訓練を受けている。訓練後はユーザーの入力内容を理解して質問に答えるために、幾つかのニューラルネットワーク技術（人間の脳の神経回路を模倣した機械学習技術）を使用している。

　学習と推論の両方で、GeminiはGoogleが開発した機械学習向けの集積回路「Cloud Tensor Processing Unit」（TPU）を利用している。

　LLMの主な課題として、出力結果にバイアス（偏見）や有害なコンテンツが含まれる可能性があることが挙げられる。Googleが公開するAI原則によると、Geminiをはじめとした同社のAIはこれらのリスクを抑えるために、安全性を確保するための開発手法を採用し、LLMに対する継続的な監視やテストを実施している。

併せて読みたいお薦め記事

「Gemini」をもっと詳しく

　Geminiは用途や利用規模に合わせて複数のモデルを用意している。2024年7月時点では、「Gemini Ultra」「Gemini Pro」「Gemini Nano」「Gemini Flash」の4種類がある。最上位モデルの「Gemini Ultra」は物理学の推論や大量の科学論文の検索といった、複雑なタスクを高速で処理する。

　Gemini Proは、より幅広い用途への利用を想定している。2023年12月に、Googleは同社のAIアプリケーション開発ツール「Vertex AI」と「Google AI Studio」でGemini Proを利用可能にした。Googleのプログラミング用生成AI「AlphaCode 2」は、Gemini Proの技術に基づいている。

　Gemini Nanoはモバイルデバイスで実行するのに適したモデルだ。デバイスがインターネットに接続されているかどうかにかかわらず、迅速な応答ができるように設計されている。Googleのスマートフォン「Google Pixel 8 Pro」はGemini Nanoが組み込まれているデバイスの一つだ。

　Gemini FlashはGeminiの軽量モデルで、Vertex AIの利用料金が他のGeminiモデルと比較して抑えられていることが特徴だ。

Gemini（旧Bard）誕生の歴史

　Googleは2023年2月にBardを発表し、同年5月に180以上の国と地域で一般提供を開始した。2024年2月、BardはGeminiに改称した。

　2023年2月にGoogleが一般提供に先駆けてBardを発表したのは、OpenAIの生成AIアプリケーション「ChatGPT」の発表を受けて、それに対抗する狙いがあったからだとみられる。

併せて読みたいお薦め記事

「Gemini」をもっと詳しく

　GoogleがBardを発表したことについては、時期尚早だったという声がある。例えばGoogleとAlphabetのCEOであるスンダー・ピチャイ氏は2023年2月にBardを実演して見せた際、Bardはユーザーの質問に対して事実と異なる回答をしたからだ。この実演では、あるユーザーがBardに対して「ジェームズ・ウェッブ宇宙望遠鏡（JWST）からの新たな発見を9歳の子供に伝えることができますか」と質問した。Bardは「ジェームズ・ウェッブ宇宙望遠鏡は太陽系外の惑星の最初の写真を撮った」と回答した。しかし天文学者らは最初の太陽系外惑星の画像は2004年に地上の観測所で撮影されており、Bardの答えが間違っていると指摘した。同年2月8日（現地時間）の米国株式市場でGoogleの時価総額が1000億ドル下落したのは、この騒動が一因だと考えられる。

Google Geminiは誰が使えるのか

　Geminiは世界中で利用可能だ。ただしAI技術に関する各国の法規制に合わせて、年齢制限が設けられている。GeminiのWebアプリケーションの場合、欧州経済領域（EEA）、スイス、カナダ、英国では18歳以上、その他のほとんどの国では13歳以上であればGeminiを使うことができる。ただし18歳未満のユーザーは、英語でのみGeminiのWebアプリケーションを使用できる。ユーザーはGeminiを利用するために、自身のGoogleアカウントを持っている必要がある。

Geminiの利用料金

　2024年7月時点で、Gemini ProとGemini Nanoは登録後無料で使用できる。月額20ドルの「Gemini Advanced」プランに加入すると、Gemini Ultraが利用できるようになる。同プランはGemini AdvancedのWebアプリケーションでプログラミング言語「Python」のソースコードを編集、実行する機能や、Googleのストレージサービス「Google One」の2TB分のストレージが含まれている。

併せて読みたいお薦め記事

「Gemini」をもっと詳しく

Geminiの主な用途

　Geminiはテキストや画像、音声、ビデオなどのデータを理解したり、これらの異なる形式の入力データを組み合わせて、それを基に出力を生成したりすることが可能だ。

　業務にGeminiを使用すれば、次のようなさまざまなタスクを実行できる。

テキストの要約や生成
- さまざまなタイプのデータからコンテンツを要約したり、ユーザーのプロンプト（情報を生成するための質問や指示）に基づいてテキストを生成したりする。チャットbotに組み込むことで、質問への自動回答にも利用できる。
テキスト翻訳
- 100カ国語以上の言語を理解し、翻訳を実行する。
画像の理解
- 外付けのOCRツールを使用せずに、チャートや図、ダイヤグラムなどの複雑な画像や図形を解析する。画像のキャプション作成や、画像を用いた質疑応答をする。
音声処理
- さまざまな言語の音声認識や、音声翻訳などのタスクを実行する。
映像の理解
- 入力された動画の内容を理解して、質問に答えたり説明を生成したりする。
ソースコードの分析や生成
- 「Python」「Java」「C++」「Go」などの一般的なプログラミング言語のソースコードを、入力されたプロンプトに合わせて生成する。

06＃Geminiのリスクとデメリット

Geminiのリスクとデメリット

　Geminiには幾つかのリスクや欠点がある。その一つが、LLMの学習が不十分になる可能性があることだ。全てのAI技術と同様に、Geminiは正確な答えを出すために学習する必要がある。その際に、不正確な情報や間違った情報ではなく、正確な情報で学習させる必要がある。ユーザーは間違った情報が出力されたときに、それを識別する必要がある。

　バイアスが入り込むことも、他のAIモデルと同様、Geminiに残る課題だ。Googleは、全てのGemini モデルが人間にとって危険な回答をするリスクを抑えるために、同社のAI原則に基づいて開発されていると主張している。

併せて読みたいお薦め記事

「Gemini」をもっと詳しく

Geminiと「GPT-3」「GPT-4」を比較

　OpenAIのLLM「GPT-3」「GPT-4」は、Geminiと競合するLLMだ。以下の表は、GeminiとGPT-3、GPT-4の主な特徴を表している。


	Gemini	GPT-3とGPT-4
開発企業	Google DeepMind	OpenAI
チャットbotのインタフェース	Gemini	ChatGPT
方式	テキストと画像、音声、ビデオを処理できるマルチモーダル	GPT-4はマルチモーダルだが、開発当初のGPTはテキストのみを扱っていた
モデルの種類	UltraとPro、Nano	GPT-3.5 Turbo、GPT-4 Turboなど
コンテキストウィンドウ（生成AIがやりとりの中で保持する情報量）の長さ	3万2000トークン	3万2000トークン

GeminiとChatGPTはどちらを利用すべきか

　GeminiとChatGPTは、人々との対話を実現するチャットbot機能を備えている。両者とも、検索システムのユーザー体験を向上させたり、Webサイトの情報を収集して新しい情報を回答に取り入れたりするために使われている。2023年1月にMicrosoftはOpenAIに総額100億ドルを出資して、同社との関係性を深めている。Microsoftは検索エンジンの「Bing」にGPT-4を組み込み、ユーザーとの対話に基づいた検索結果を提供できるようにした。Geminiは2024年7月時点で、「Search Labs」としてGoogle Searchで試験的に利用可能だ。

　GeminiとChatGPTは共に、出力されたコンテンツが他の出典元から盗用されたコンテンツである可能性がある。両サービスとも、出力結果がオリジナルであることを検証するための盗用検出機能は、標準機能として搭載されていない。ただしAIツールが生成したコンテンツの盗作を検出するためのサードパーティーのツールが利用できる。

TechTargetジャパントップエンタープライズAI