それ、AI製？　人には判別不能でも「検出ツール」なら見破れるのか：AI生成コンテンツを見分けられるか？【第2回】

著作権侵害をはじめとする生成AIのリスクを踏まえて、「AIコンテンツ検出ツール」に注目が集まる。どのようにAI製コンテンツを検出するのか、その仕組みを解説する。

≫ 2024年01月20日 08時00分公開

「AIコンテンツ検出ツール」の仕組みとは

併せて読みたいお薦め記事

連載：AI生成コンテンツを見分けられるか？

第1回：「AI製なのかどうか」を人間にはもう見破れない現実

生成AIで成功するために必要な「リスク」の視点

　AIコンテンツ検出ツールは、インターネットをはじめとする複数の情報源から収集した大量のデータセットを用いて、コンテンツに特定の単語やフレーズが出現する可能性を予測する。コンテンツ内の単語の前後関係において、次の単語の予測可能性が高ければ高いほど、そのコンテンツはAIが生成した可能性が高いと判断する。

　一般的な機械学習モデルと同様、AIコンテンツ検出ツールでは特定パターンとのデータ照合にアルゴリズムを用いる。そうした照合を経て、最終的にはコンテンツ全体に対してAIモデルが生成したものなのかどうかの判断を下す。ただし、その結果は必ずしも信頼できるわけではない。

　AI技術の法的および技術的リスクを専門とする法律事務所Luminos.Lawで主席サイエンティストを務めるパトリック・ホール氏は、「私が目にする検出ツールの大半は、単純な分類アルゴリズムを用いる機械学習モデルを基にしたツールだ」と話す。一般的にAIコンテンツ検出ツールは、AIが生成したコンテンツと人間が作成したコンテンツ例を用意し、ラベル付けした上で訓練を実施する。残念ながら、このような基本的な手法がうまく機能するケースはほぼないという。「LLMは驚くほど洗練されたアーキテクチャを持っており、単純な機械学習ツールでは太刀打ちできない」（ホール氏）

　OpenAIは2023年1月、ChatGPTが生成した文章と人間の文章を見分けるためのツール「AI Text Classifier」を発表したが、それから6カ月以内に提供を終了している。理由として同社は精度の低さを挙げており、より精度の高いAIコンテンツ検出ツールの開発に取り組んでいるという。

　第3回以降は、6つのAIコンテンツ検出ツールと、実際に使用した評価を紹介する。

TechTarget発　世界のインサイト＆ベストプラクティス

米国TechTargetの豊富な記事の中から、さまざまな業種や職種に関する動向やビジネスノウハウなどを厳選してお届けします。

TechTargetジャパントップエンタープライズAI