コンテンツがAI製なのか、人間製なのかを判別するための「AIコンテンツ検出ツール」がある。その実力はどうなのか。OpenAIをはじめ、複数のベンダーが提供する検出ツールを実際に使ってみた。
テキストや画像などを自動生成するAI(人工知能)技術である「生成AI」(ジェネレーティブAI)。その利便性から利用がこれから拡大し、生成AIが出力したさまざまなコンテンツが世の中に出回るようになると考えられる。
生成AIが出力したコンテンツには不正確な情報が含まれていることがあるが、それを判別することは容易ではないため利用には注意が必要だ。このような課題の解決に役立つのが、コンテンツを生成したのがAIモデルなのか、そうではないのかを判断する「AIコンテンツ検出ツール」だ。
筆者は6つのAIコンテンツ検出ツールを使用し、その性能を調査した。そのうち「Giant Language model Test Room」と、AIベンダーOpenAIの「GPT-2 Output Detector」を紹介する。
調査では、同程度の長さの異なるテキストコンテンツを3つ用意した。
AIコンテンツ検出ツール「Giant Language model Test Room」(GLTR)は、マサチューセッツ工科大学(MIT:Massachusetts Institute of Technology)とIBM Researchの科学者コミュニティMIT-IBM Watson AI labの研究者と、ハーバード大学(Harvard University)の自然言語処理(NLP)の研究者ら3人により作成された。
GLTRは、テキストにおける言語モデルの痕跡を精査する仕組みだ。具体的には、OpenAIのLLM(大規模言語モデル)「GPT-2」が生成したテキストと人間が作成したテキストの違いを分析する。テキストの文脈から次の単語が予測しやすいほど、AIモデルが生成したテキストの可能性が高いことを示す。
まず、用意されたスペースに任意のテキストを入力すると、各単語に色のハイライトが付けられる。各色は予測される単語として可能性の高い単語を示す。緑色(予測される単語の上位10単語)、黄色(上位100単語)、赤色(上位1000単語)、残りの単語は紫色で表示される。色のバラエティやランダム性が高いほど、人間が作成したコンテンツである可能性が高く、緑色が多いコンテンツはAIが作成した可能性が高い。
GLTRに上述の3つのコンテンツを入力したところ、ChatGPTが生成したエッセイが最も緑が多く、ランダム性の少ない結果となった(図1)。
OpenAIの「GPT-2 Output Detector」は、テキストの作成者が人間なのかAIモデルなのかをトークン(テキストデータを処理する際の基本的な単位)に基づいて識別する、オープンソースのAIコンテンツ検出ツールだ。Meta PlatformsのAI技術研究所Meta AIが開発したLLM「RoBERTa」(Googleの自然言語処理モデル「BERT」の改良版)を微調整した言語モデルを使用する。
検出ツールのテキストボックスに内容を入力すると、予測確率を「Real(人間製)- Fake(AIモデル製)」の割合で表示する。検出の精度は約50トークン以上で一定以上の精度になるという。上述の3つのコンテンツを渡したところ、ChatGPTが作成したターミネーター調のポエムは「99.02%人間製」となり、筆者が書いたCDOに関する記事とほぼ同じ結果が出た。一方で、ChatGPTが作成したターミネーター調のエッセイについては「99.97%AI製」との結果が出た(図2)。
第5回は、引き続きAIコンテンツ検出AIツールのレビューを紹介する。
米国TechTargetの豊富な記事の中から、さまざまな業種や職種に関する動向やビジネスノウハウなどを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.
生成AIのビジネスへの適用が加速しているが、一方でサイバー犯罪・攻撃に利用されるケースも増えてきた。そこで、生成AIを用いたサイバー犯罪・攻撃の進化について深く掘り下げるとともに、これらの対処方法についても解説する。
企業がイノベーションを起こせるようにするには、インテリジェントでリアルタイムな意思決定ができる組織への変革が必要だ。その変革を主導する経営幹部が必要とするものを提供してくれるAIエージェントがあるという。
急増するITサービスとIT資産の管理運用に、課題を抱えている組織は少なくない。予測分析や問題解決の迅速化、生産性の向上を実現するためにはどうすればよいのか。本資料では、解決策としてAIエージェントを活用する方法を解説する。
意思決定や計画、行動を自律的にこなす「AIエージェント」に対する関心が高まる一方、実装に向けては、データの正確性やアクセスの制御など、多くの課題が立ちはだかる。その解決策や、代表的なユースケースなどについて、詳しく解説する。
ビジネスにおける生成AI活用が広がる中、コンタクトセンターでも生成AIを使って業務改善につなげる動きが加速している。オペレーターと顧客とのやりとりに生成AIを活用することで、どのような成果が生まれるのか。本資料で解説する。
GPUサーバは買うべきか、借りるべきか――オンプレミス vs. クラウド徹底比較 (2025/7/7)
ドキュメントから「価値」を引き出す、Acrobat AIアシスタント活用術 (2025/3/28)
広がるIBM i の可能性 生成AIによる基幹システム活用の新たな技術的アプローチ (2025/3/28)
「NVIDIAのGPUは高過ぎる……」と諦める必要はない? GPU調達はこう変わる (2025/3/11)
PoCで終わらせない企業の生成AI活用 有識者が語る、失敗を避けるためのノウハウ (2024/10/18)
「テレワークでネットが遅い」の帯域幅じゃない“真犯人”はこれだ
ネットワークの問題は「帯域幅を増やせば解決する」と考えてはいないだろうか。こうした誤解をしているIT担当者は珍しくない。ネットワークを快適に利用するために、持つべき視点とは。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。
「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...