「生成AI」のノウハウ、賢い使い方のヒント

ユーザー企業のIT担当者を対象に、IT製品/サービスの導入・購買に役立つ情報を提供する無料の会員制メディア「TechTargetジャパン」。このコンテンツでは、運用&Tipsに関する運用&Tipsの記事を紹介します。製品/サービス選定の参考にご覧ください(リンク先のページはPR記事を含みます)。

生成AIとは何か

動画で解説 AI技術によるコンテンツ生成の長所と短所


 生成AI(ジェネレーティブAI)は、テキストや画像、音声など、さまざまな種類のコンテンツを生成できるAI(人工知能)技術の一種だ。(続きはページの末尾にあります)

生成AI関連の運用&Tips

「誤情報」より「言論の自由」 トランプ新政権のSNS改革は一理ある?

トランプ氏は「言論や表現の自由を守る」と宣言し、SNSの投稿の誤情報を監視する「コンテンツモデレーター」をやり玉に挙げている。一方で専門家は、言論の自由を妨げる“根本的な問題”があると指摘する。その問題とは。

(2024/12/23)

【5分で解説】“生成AI競争”「Google・OpenAI・イーロンの思惑」まとめ

生成AIの開発競争が激化している。Googleは最新鋭の生成AI「Gemini」、対するOpenAIは動画生成AI「Sora」を発表して話題をさらった。他方、契約内容を巡ってマスク氏がOpenAIを提訴する事態も起きた。混とんとする業界動向をまとめた。

(2024/3/28)

生成AIはセキュリティ製品も駆逐する? 「Copilot for Security」登場で変わる常識

Microsoftは生成AIセキュリティツール「Copilot for Security」の一般提供を開始する。従来のセキュリティ製品と何が違うのか。

(2024/3/18)

イーロン・マスク氏が生成AI「Grok」をオープン化する“語られない狙い”

イーロン・マスク氏が、生成AI技術を活用したチャットbot「Grok」をオープンソースで提供する方針を明らかにした。背景にはOpenAIへの恨みがあるようだが、もう一つの狙いを指摘する向きもある。

(2024/3/14)

Adobeが「PDFリーダー」に生成AI “時短”につながる「Acrobat」の新機能とは

Adobeは、「Acrobat」に生成AIによる対話型エンジンを追加した。文書内検索や文書要約にどのようなメリットがあるのか。

(2024/2/26)

なぜ、GoogleはノートPCでも実行可能なAIモデル「Gemma」を発表したのか

Googleが発表した「Gemma」は、オープンソースのAIモデルだ。「Gemini」の開発と同じ技術を使用しているが、例えば「Gemini 1.5 Ultra」と比較するとサイズは小さい。開発の背景には何があるのか。

(2024/2/26)

生成AIの「完璧な文」に隠れている何か変な“違和感”の正体

AIモデルが生成したコンテンツは、一見人すると間が作成したかのようだ。どのようなポイントに注意すればAI製だと見分けることができるのか。

(2024/2/24)

弱点は何か? OpenAIの“1分映像”生成AI「Sora」に抱く疑問

OpenAIが、テキストから約1分間の映像を生成できる「Sora」を発表。競合のAI技術ベンダーと「互角の勝負になる」という見方がある一方、OpenAI自身も認める弱点がある。

(2024/2/19)

生成AIが書いた「きれいな文」に混入する“AIのわずかな痕跡”はこれだ

AIモデルによる出力結果の精度が高まる中で、AIモデル製のコンテンツと人間製のコンテンツの判別が難しくなっている。見分けるにはどのような特徴に着目すればいいのか。

(2024/2/17)

Web会議で「何を話したっけ?」 会話履歴から答える「Otter」新機能は役立つのか

複数のWeb会議ツールの会話履歴を横断して、ユーザーの質問に答える「Meeting GenAI」を、Otter.aiが発表した。AIアシスタント「Microsoft Copilot」やZoomのユーザーを取り込む狙いがあるが、課題も抱える。

(2024/2/15)

「生成AI」対「AIコンテンツ検出ツール」 勝ったのはどっち?

生成AIが出力したコンテンツの、正確性の欠如や法的侵害といったリスクが問題となっている。AI製なのかどうかを見分ける手段が必要だ。その方法として「AIコンテンツ検出ツール」がある。実際に使えるものなのか。

(2024/2/10)

Google最新鋭の生成AI「Gemini」は何が違うのか Microsoftと異なる発想

GoogleがAIチャットbot「Google Bard」を「Gemini」に改称。最高性能の基盤モデルを採用する「Gemini Advanced」も発表した。MicrosoftとOpenAIに対抗する動きだと、アナリストは指摘している。

(2024/2/10)

Meta、InstagramやFacebookで「AI生成画像」にラベル付け その理由は?

Meta Platformsは自社が提供するSNSにおいて、生成AI画像へのラベル付けを開始する。その背景にあった人工知能技術を悪用した事件とは。

(2024/2/8)

AI検出は「ChatGPTの文」をどこまで見抜けるのか? 複数ツールで試してみた

コンテンツがAI製なのか、人間製なのかを判別するための「AIコンテンツ検出ツール」がある。その実力はどうなのか。OpenAIをはじめ、複数のベンダーが提供する検出ツールを実際に使ってみた。

(2024/2/3)

「画像生成AI」にマーケターが喜ぶ理由 “期待できる広告効果”とは?

広告制作における「生成AI」の活用が広がりつつある。中小企業のマーケターにとってうれしいメリットや、注意すべきリスクについて解説する。

(2024/1/31)

AIチェッカーに「自筆」と「AIポエム」を判別させたら面白い結果に

そのコンテンツが人間によって書かれたものなのか、AIモデルによって生成されたものかを見分ける際に役立つ「AIコンテンツ検出ツール」。その精度はどれほどなのか。筆者が実際に使用し、性能をレビューする。

(2024/1/27)

それ、AI製? 人には判別不能でも「検出ツール」なら見破れるのか

著作権侵害をはじめとする生成AIのリスクを踏まえて、「AIコンテンツ検出ツール」に注目が集まる。どのようにAI製コンテンツを検出するのか、その仕組みを解説する。

(2024/1/20)

Amazonが「画像生成AI」を提供する狙い “映える”イメージ作成が可能に

Amazon.comは2023年10月、広告用画像を自動生成できる生成AIツールを発表した。広告制作は具体的にどう変わるのか。Photoshopなど他ツールとの比較する際に注意すべきポイントとは。

(2024/1/18)

「AI製なのかどうか」を人間にはもう見破れない現実

生成AIの活用が急速に広がる一方で、生成したコンテンツの信ぴょう性や、著作権侵害といったリスクに留意する必要がある。「AI製なのかどうか」を見破れないと、どのような問題があるのか。

(2024/1/13)

「画像生成AIが権利を侵害した」というアーティストの主張は成立するのか

画像生成AIモデルが目覚ましい進化を遂げている。AIモデルの教師データとなったアート作品の作者の中には、「権利を侵害された」と主張する人もいる。その主張は正しいと言えるのか。

(2022/12/9)

生成AIはどう進化しているのか 「ChatGPT」「Dall-E」「Bard」の違いとは

 生成AIの進化で重要な役割を果たしたのが、深層学習技術の「Transformer」だ。Transformerによって、研究者は学習データにあらかじめラベルを付ける必要がない教師なし学習で、より大規模なモデルを訓練できるようになった。何十億ページ分にも上るテキストを新しいAIモデルに学習させることで、より正確かつ詳細な答えを導き出すことができる。

 TransformerはAttentionという機構によって、1文ごとの文章だけでなく、複数のページや章、本にわたる単語間の関係を計算することを可能にしている。要素同士の関係性を計算するTransformerの能力によって、言葉だけでなくソースコードやタンパク質、化学物質、DNA(デオキシリボ核酸)を分析することができる。

 何十億個、何兆個ものパラメーターを持つ大規模言語モデル(LLM)の急速な進歩は、生成AIモデルが即座に魅力的な文章を書いたり、写実的な画像を描いたりできる新しい時代を到来させた。複数の種類の情報を同時に処理する「マルチモーダルAI」の登場で、ユーザーはテキストや画像、音声など、複数のメディアを組み合わせてコンテンツを生成できるようになった。OpenAIの画像生成サービス「Dall-E」は、マルチモーダルAIの一つだ。Dall-Eはテキストの説明から画像を自動的に作成したり、画像からテキストのキャプションを生成したりする。

 生成AIの進化はまだ初期の段階だ。そのため入力したプロンプト(指示)に対して奇妙な答えを返すこともある。しかし生成AIの能力は、企業のIT活用の方法を劇的に変える可能性がある。今後生成AIは、ソースコードの記述や新薬の設計、製品の開発、業務プロセスの再設計、サプライチェーンの変革に利用できるようになると考えられる。

生成AIはどのように機能するのか?

 生成AIは、ユーザーがテキストや画像、動画、デザイン、音符などの形式でプロンプトを入力することで、データ処理を始める。そしてプロンプトを基に新しいコンテンツを出力する。出力できるコンテンツには、文章や問題の解決策、画像、音声などがある。

 初期の生成AIは、データを送信するためにAPI(アプリケーションプログラミングインタフェース)やその他の複雑なプロセスを必要とした。OpenAIの「ChatGPT」やGoogleの「Bard」など新たに登場した主要な生成AIサービスでは、ユーザーが自然言語で簡単なプロンプトを入力することで結果を得られるようになっている。やりとりの過程でフィードバックを送信することで、生成結果にユーザーの希望を反映させることもできる。

生成AIモデル

 生成AIモデルは、さまざまなAIアルゴリズムを組み合わせてコンテンツを表現し、処理する。こうした技術は学習データに含まれる偏見や人種差別、誇大広告に基づいた処理結果を出力してしまう可能性がある点に注意が必要だ。

 生成AIに使われているAIモデルの具体例として、Googleの「BERT」(Bidirectional Encoder Representations from Transformers)やDeepMind Technologies(現Google DeepMind)が開発した「Google AlphaFold」、OpenAIの「GPT」などが挙げられる。

ChatGPT、Dall-E、Bardの比較

 主な生成AIサービスとして、ChatGPTやDall-E、Bardがある。

  • ChatGPT

 OpenAIが手掛けるChatGPTは、AIモデルとして「GPT-3.5」を利用している。GPT-3.5によって、ChatGPTはユーザーインタフェースのチャット機能を通してユーザーと対話したり、やり取りの中で回答を微調整したりすることを可能にしている。2023年3月14日に、同社は新バージョンの「GPT-4」を発表した。

 ChatGPTは、ユーザーとの会話履歴を出力結果に組み込む。これによって人間同士の実際の会話のような体験ができることが特徴だ。ChatGPTの登場に合わせて、MicrosoftはOpenAIへの大規模な投資を発表し、GPT-4を同社の検索エンジン「Bing」に組み込んだ。

  • Dall-E

 Dall-Eは、画像とそれに関連するテキスト説明を含む大規模なデータセットで訓練されている。視覚やテキストなど複数の表現方法の間で関連性を識別できる、マルチモーダルAIの一例だ。Dall-Eは言葉の意味を基に画像を生成する。Dall-E 2は、より高性能な2番目のバージョンで、2022年にリリースされた。ユーザーのプロンプトによって複数のスタイルでイメージを生成することができる。

  • Bard

 Googleもまた、言語やタンパク質の構造、その他の種類の情報を処理するAIモデルを擁する先駆者である。同社は自社で開発したAIモデルの一部を、研究者向けにオープンソース化して提供している。これらのAIモデルを利用した一般消費者向けのチャットbotサービスは、しばらく発表しなかった。

 MicrosoftがBingにGPTを実装するという決定を下した後、GoogleはLLMの「LaMDA」ファミリーの軽量版をベースにした一般向けチャットbot「Google Bard」の開発を急いだ。

 Bardは、「初めて太陽系外に惑星を発見したのはジェームズ・ウェッブ宇宙望遠鏡である」という間違った回答を表示したため、同サービスの提供を急いだGoogleの株価が大幅に下落した。MicrosoftがBingにChatGPTを実装した際にも出力結果の不正確さや不安定な動作が見られ、初期の段階でユーザーの期待を薄れさせた。

 Googleはその後、同社の新しいLLMである「PaLM 2」を組み込んだBardの新バージョンを発表した。Bardはアップデートによって、ユーザーが入力した質問に対して、画像を含んだ回答やユーザーの需要に合わせた回答ができるようになった。