2024年01月20日 08時00分 公開
特集/連載

それ、AI製? 人には判別不能でも「検出ツール」なら見破れるのかAI生成コンテンツを見分けられるか?【第2回】

著作権侵害をはじめとする生成AIのリスクを踏まえて、「AIコンテンツ検出ツール」に注目が集まる。どのようにAI製コンテンツを検出するのか、その仕組みを解説する。

[Ron KarjianTechTarget]

 テキストや画像などを自動生成するAI(人工知能)技術「生成AI」(ジェネレーティブAI)は、AIベンダーOpenAIの「ChatGPT」の登場以降、急速に普及した。同時に著作権侵害や、本物を装った合成コンテンツ「ディープフェイク」など、生成AIのリスク対策が急務となっている。

 AIモデルが生成したコンテンツの中には正確なものもある。しかしビジネスで使用するコンテンツには、AIモデルが生成したものかどうかを見分けられるようにすることが求められる。こうした背景から注目されるのが、コンテンツを生成したのがAIモデルなのか人間なのかを判断する「AIコンテンツ検出ツール」だ。

「AIコンテンツ検出ツール」の仕組みとは

併せて読みたいお薦め記事

連載:AI生成コンテンツを見分けられるか?

生成AIで成功するために必要な「リスク」の視点


 AIコンテンツ検出ツールは、インターネットをはじめとする複数の情報源から収集した大量のデータセットを用いて、コンテンツに特定の単語やフレーズが出現する可能性を予測する。コンテンツ内の単語の前後関係において、次の単語の予測可能性が高ければ高いほど、そのコンテンツはAIが生成した可能性が高いと判断する。

 一般的な機械学習モデルと同様、AIコンテンツ検出ツールでは特定パターンとのデータ照合にアルゴリズムを用いる。そうした照合を経て、最終的にはコンテンツ全体に対してAIモデルが生成したものなのかどうかの判断を下す。ただし、その結果は必ずしも信頼できるわけではない。

 AI技術の法的および技術的リスクを専門とする法律事務所Luminos.Lawで主席サイエンティストを務めるパトリック・ホール氏は、「私が目にする検出ツールの大半は、単純な分類アルゴリズムを用いる機械学習モデルを基にしたツールだ」と話す。一般的にAIコンテンツ検出ツールは、AIが生成したコンテンツと人間が作成したコンテンツ例を用意し、ラベル付けした上で訓練を実施する。残念ながら、このような基本的な手法がうまく機能するケースはほぼないという。「LLMは驚くほど洗練されたアーキテクチャを持っており、単純な機械学習ツールでは太刀打ちできない」(ホール氏)

 OpenAIは2023年1月、ChatGPTが生成した文章と人間の文章を見分けるためのツール「AI Text Classifier」を発表したが、それから6カ月以内に提供を終了している。理由として同社は精度の低さを挙げており、より精度の高いAIコンテンツ検出ツールの開発に取り組んでいるという。


 第3回以降は、6つのAIコンテンツ検出ツールと、実際に使用した評価を紹介する。

TechTarget発 世界のインサイト&ベストプラクティス

米国TechTargetの豊富な記事の中から、さまざまな業種や職種に関する動向やビジネスノウハウなどを厳選してお届けします。

ITmedia マーケティング新着記事

news067.jpg

Xにおける「バレンタイン」を含む言及数は過去4年間で最多だがUGC数は最少 どういうこと?
ホットリンクは、X(旧Twitter)に投稿されたバレンタインに関するUGCについて調査しまし...

news061.jpg

Expedia幹部が語る旅行体験向上のためのAI活用とグローバルブランド戦略
Expediaは、日本での18周年を記念してブランドを刷新した。テクノロジーへの投資を強化し...

news046.png

B2Bマーケティング支援のFLUED、国内のEC/D2C企業20万社のデータベース「StoreLeads」を提供開始
B2Bマーケティング・営業DXを支援するFLUEDは、カナダのLochside Softwareが提供するECサ...