AIが“共食い”? 学習するほど崩壊に近づく「カニバリズム」の問題:AI時代の新たな問題
AI生成コンテンツの品質低下につながる、AIの「カニバリズム」(共食い)という新たな問題が明らかになりつつある。AIカニバリズムとは何か、どのような対策を講じるべきなのかを紹介する。
大規模言語モデル(LLM)をはじめとする人工知能(AI)モデルの構築と調整には、学習データを使用したトレーニングが不可欠だ。この際のデータの質がAIモデルの性能を左右することは想像に難くない。学習データとして、あるAIモデルが生成したデータを使用して別のAIモデルをトレーニングする手法も広く採用されている。しかしこの方法が、AIの「カニバリズム」(共食い)とも呼ばれる問題を引き起こすことが明らかになりつつある。
あらゆるAIシステムの知識は、学習データに基づく。「ファインチューニング」(追加学習)や「RAG」(検索拡張生成)といった、後からデータを補完する手法もあるが、基本的に重要なのはトレーニング時の学習データだ。これは、AIモデルが学習データに基づいて情報の関連性と重要度を判断する“重み付け”を行うことに起因する。AIモデルが正確かつ多様性のある出力を生成するためには、多様な学習データが必要だ。
鍵はデータ品質にあり “共食い”を繰り返すAIとは
AIモデルが生成したデータを別のAIモデルのトレーニングで使用する場合、元となったAIモデルに存在するバイアス(偏り)や誤り、ハルシネーション(事実に基づかない回答)が、そのまま引き継がれてしまう恐れがある。さらに、このプロセスを重ねるごとに、大本の実データから乖離(かいり)したり、新しい情報が欠如したりして、最終的には「モデル崩壊」と呼ばれる現象へとつながる可能性がある。モデル崩壊とは、AIモデルが均質で、有用性の低い出力しか生成できなくなる退行や劣化を指す。元のAIモデルから複数のAIモデルが学習した場合、全てのモデルが同じような出力を生成し、多様性がさらに制限されることとなる。
AIカニバリズムのリスク
AIカニバリズムは、以下のようなリスクをユーザーにもたらす可能性がある。
- モデル崩壊
- AIが生成したデータによるトレーニングを繰り返していくと、まれなケースではあるものの、重要なデータパターンに関する情報を失い、多様性を欠いた、役に立たない出力を生成するようになる
- パフォーマンスの低下
- 学習データの多様性が欠けると、エッジケースへの対応能力が低下する。創造性が低下し、ハルシネーションや文脈にそぐわない応答が増加する
- イノベーションの欠如
- 複数のAIモデルが似たようなパターンの学習データを使用すると、予測可能で平凡な回答しか出力しなくなる
- バイアスの増幅
- バイアスを含むデータでモデルをトレーニングすると、バイアスがさらに増幅される
- 多様性の欠如
- 人間が作成したデータが不足すると、多様な知識や意見を吸収できなくなり、回答の多様性が失われる
- 信頼性の低下
- 回答精度が低下すると、AIに対する信頼が損なわれる
- 情報汚染
- インターネット上に、人間が作成したコンテンツよりも独創性や洞察に欠ける質の低いコンテンツが氾濫することになる
AIカニバリズムを防ぐ方法
AIカニバリズムの根本原因は、AIが生成した低品質のデータセットの使用にある。以下のような対策を講じて、データ品質の向上を図ることが必要だ。
- データキュレーション
- データの収集、整理、クリーニング、補強を含むデータキュレーションを実施する
- データリネージ
- データの生成源から最終利用点までの流れを追跡、記録するデータリネージを実施する
- データガバナンス
- データキュレーションとデータリネージを含む、データガバナンスポリシーを組織として実装する
- コンテンツ検出
- 可能であれば、人間が作成したコンテンツとAIが生成したコンテンツを区別する検出技術を導入する
AIの未来を守る取り組み
AIカニバリズムはAIの存在意義すら脅かしかねない。ベンダー、モデル開発者、業界団体、政府機関は、以下のような取り組みを実施する必要がある。
- 人間が作成したコンテンツの保護
- AIカニバリズムにより、新しい情報が失われる危険性がある。人間が作成した“本物の”コンテンツに重点を置き、優先的に収集する
- “量より質”を重視したデータ戦略
- 多くのAI開発では、学習データの量を増やすことが重視されがちだが、人間が作成した高品質な検証済みのデータの利用に重心を移す
- 業界標準の策定
- データラベリング、コンテンツの検証など、AIモデルのトレーニング方法について業界標準を確立する
- 規制の策定
- 法律に基づく規制を策定、施行する
- 現在の取り組みとしては、データ品質の要件と透明性を規定する欧州連合(EU)の「AI法」(Artificial Intelligence Act)、コンテンツ認証基準の確立を目指す米国で提出された法案「COPIED」(Content Origin Protection and Integrity from Edited and Deepfaked Media Act of 2024)などが挙げられる
翻訳・編集協力:雨輝ITラボ(リーフレイン)
Copyright © ITmedia, Inc. All Rights Reserved.