著作権侵害をはじめとする生成AIのリスクを踏まえて、「AIコンテンツ検出ツール」に注目が集まる。どのようにAI製コンテンツを検出するのか、その仕組みを解説する。
テキストや画像などを自動生成するAI(人工知能)技術「生成AI」(ジェネレーティブAI)は、AIベンダーOpenAIの「ChatGPT」の登場以降、急速に普及した。同時に著作権侵害や、本物を装った合成コンテンツ「ディープフェイク」など、生成AIのリスク対策が急務となっている。
AIモデルが生成したコンテンツの中には正確なものもある。しかしビジネスで使用するコンテンツには、AIモデルが生成したものかどうかを見分けられるようにすることが求められる。こうした背景から注目されるのが、コンテンツを生成したのがAIモデルなのか人間なのかを判断する「AIコンテンツ検出ツール」だ。
AIコンテンツ検出ツールは、インターネットをはじめとする複数の情報源から収集した大量のデータセットを用いて、コンテンツに特定の単語やフレーズが出現する可能性を予測する。コンテンツ内の単語の前後関係において、次の単語の予測可能性が高ければ高いほど、そのコンテンツはAIが生成した可能性が高いと判断する。
一般的な機械学習モデルと同様、AIコンテンツ検出ツールでは特定パターンとのデータ照合にアルゴリズムを用いる。そうした照合を経て、最終的にはコンテンツ全体に対してAIモデルが生成したものなのかどうかの判断を下す。ただし、その結果は必ずしも信頼できるわけではない。
AI技術の法的および技術的リスクを専門とする法律事務所Luminos.Lawで主席サイエンティストを務めるパトリック・ホール氏は、「私が目にする検出ツールの大半は、単純な分類アルゴリズムを用いる機械学習モデルを基にしたツールだ」と話す。一般的にAIコンテンツ検出ツールは、AIが生成したコンテンツと人間が作成したコンテンツ例を用意し、ラベル付けした上で訓練を実施する。残念ながら、このような基本的な手法がうまく機能するケースはほぼないという。「LLMは驚くほど洗練されたアーキテクチャを持っており、単純な機械学習ツールでは太刀打ちできない」(ホール氏)
OpenAIは2023年1月、ChatGPTが生成した文章と人間の文章を見分けるためのツール「AI Text Classifier」を発表したが、それから6カ月以内に提供を終了している。理由として同社は精度の低さを挙げており、より精度の高いAIコンテンツ検出ツールの開発に取り組んでいるという。
第3回以降は、6つのAIコンテンツ検出ツールと、実際に使用した評価を紹介する。
米国TechTargetの豊富な記事の中から、さまざまな業種や職種に関する動向やビジネスノウハウなどを厳選してお届けします。
「同じCMばっかり」を逆手に ペプシコが実践した超斬新なクリエイティブ発想の意図は?
「Advertising Week New York」では、2024年に米国で話題を呼んだスナック菓子「Lay's」...
テレビ派? 有料動画配信派? おすすめの作品は? アニメに関する調査(2024年)
クロス・マーケティングは、国民的メジャーコンテンツに成長したアニメの視聴状況につい...
広告収入稼ぎの低品質サイト「MFA」を排除するため、マーケターにできることとは?
MFA(Made For Advertising)サイトの本質的な問題点とは何か。マーケターはMFA排除のた...