検索
ニュース

【検証】「Nano Banana Pro」の日本語描画とリーズニング能力を試してみた業務で使えるレベルなのか? 編集者が実践

Googleが画像生成AIモデル「Gemini 3 Pro Image」(通称:Nano Banana Pro)をリリースした。実際の業務に使えるのかどうか、公式ブログの情報を基に、編集者が実際に試した結果を紹介する。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

関連キーワード

人工知能 | 人材管理 | スキル | 業務改善


 2025年11月20日、Googleから画像生成AIモデル「Gemini 3 Pro Image」(通称:Nano Banana Pro)がリリースされた。同社の公式ブログによれば、マルチモーダルAIモデル「Gemini 3 Pro」のリーズニング能力を生かし、多言語テキストの描画精度と文脈理解を強化し、インフォグラフィックスや業務資料の作成を支援するとしている。

 果たして、その性能はビジネスや実務の現場で耐えられるものなのか。TechTargetジャパン編集部では、日本語テキスト描画とIT記事の要約可視化という2つの観点から、実務レベルでどこまで使えるかを検証した。

Nano Banana Proの概要

 Nano Banana Proの基本スペックは以下の通りだ。

正式名称

 Gemini 3 Pro Image

アーキテクチャ

 Gemini 3 Proを基盤とする画像生成、編集モデル

主な特徴

  • 推論能力と世界知識に基づくインフォグラフィックス生成
  • 多言語テキストの描画精度向上
  • 最大14枚までの画像合成
  • 最大5人までの人物の一貫した描写
  • 「Google Workspace」や「Vertex AI」、Geminiアプリケーションとの連携

 Geminiアプリでは「画像を作成」機能で「思考モード」(Thinking Mode)を選択することで利用できる。

検証1:生成AIの鬼門「日本語テキスト」は正確か

 これまでの画像生成AIにおける最大の課題は、「画像内の文字崩れ」だった。特に画数の多い漢字は、意味不明な記号になりがちだ。そこで、文字の正確さとイラストの整合性を確認するため、以下のプロンプトを試行した。

「完売御礼」と書かれた看板を持って、うれし泣きしている柴犬のイラストを描いて

 出力された画像が図1だ。

画像
図1 出力された柴犬のイラスト

 「完売御礼」という複雑な漢字が、崩れることなく正確にレンダリングされている。また、看板を持つ手の構造や、柴犬の「うれし泣き」という感情表現も自然だ。従来の画像生成における“文字崩れ”を知っている人なら、この精度のすごさが分かるはずだ。一方で、特に指示していない背景の文字列は、文字としては認識できるが意味は通っていない。

検証2:複雑なビジネス文脈を「リーズニング」できるか

 次に検証したのは、Gemini 3の特徴である「リーズニング」能力だ。単に絵を描くだけでなく、「複雑なテキスト情報を読み解き、適切な構成に変換して可視化できるか」をテストした。

検証手順:

 まず、提案された構成案が図2だ。

画像
図2 出力された4コママンガの構成案

 画像に入りきってはいないが「シャドーAI」や「CoE」(センターオブエクセレンス)といった専門用語の相関関係を理解し、起承転結のあるストーリーが構築されている。

 さらに、生成された画像が図3だ。

画像
図3 出力された4コママンガの画像

 記事の文脈を反映し、ビジネスシーンとして違和感のない構図が生成された。

公式推奨:精度を高めるプロンプティングのコツ

 Google公式ブログでは、Nano Banana Proの性能を最大限に引き出すために、以下のポイントが推奨されている。

文字指定には引用符を使う

 Google公式ブログでは、画像内に描画するテキストをプロンプト内でクォーテーションで囲む例が多く紹介されている。このことから、画像内に特定のテキストを描画させたい場合、「 」 や" "で囲むことで、AIが「描画すべき文字」として認識しやすくなるようだ。

思考モードの活用

 複雑な構図や論理的な整合性が重要な場面では、Geminiの思考モードを選ぶことで、より整合的な画像が期待できるとされている。

実務で使えるレベルに到達?

 今回の検証を通して目立ったのは、「ユーザーの指示の意図をくみ取る精度の高さ」だ。

 従来のAI画像生成では、意図通りの絵を出すためにプロンプトの試行錯誤(プロンプトエンジニアリング)が不可欠だった。しかし、Nano Banana Proでは、自然な日本語で書いた1回目の指示でも、おおむね意図に沿った構図とテキストを出力できるケースが増えた印象だ。クリエイティブな用途はもちろん、プレゼン資料の作成や概念の可視化など、ビジネスシーンでの活用が大きく広がることは間違いないだろう。

 ただ、小さな文字や複雑な書体では、細部が潰れたり誤字が混ざったりする可能性は残るため、インフォグラフィックスや数値を含む図の利用時には、「AIが描いた図だから」とうのみにせず、内容確認のプロセスは引き続き必要だ。

 本AIモデルはGeminiのチャットやアプリケーションから利用可能だが、無料版では今回検証したような思考モードや、高解像度での生成枚数に制限がかかる場合があるため注意が必要だ。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る