AI生成コンテンツの品質低下につながる、AIの「カニバリズム」(共食い)という新たな問題が明らかになりつつある。AIカニバリズムとは何か、どのような対策を講じるべきなのかを紹介する。
大規模言語モデル(LLM)をはじめとする人工知能(AI)モデルの構築と調整には、学習データを使用したトレーニングが不可欠だ。この際のデータの質がAIモデルの性能を左右することは想像に難くない。学習データとして、あるAIモデルが生成したデータを使用して別のAIモデルをトレーニングする手法も広く採用されている。しかしこの方法が、AIの「カニバリズム」(共食い)とも呼ばれる問題を引き起こすことが明らかになりつつある。
あらゆるAIシステムの知識は、学習データに基づく。「ファインチューニング」(追加学習)や「RAG」(検索拡張生成)といった、後からデータを補完する手法もあるが、基本的に重要なのはトレーニング時の学習データだ。これは、AIモデルが学習データに基づいて情報の関連性と重要度を判断する“重み付け”を行うことに起因する。AIモデルが正確かつ多様性のある出力を生成するためには、多様な学習データが必要だ。
AIモデルが生成したデータを別のAIモデルのトレーニングで使用する場合、元となったAIモデルに存在するバイアス(偏り)や誤り、ハルシネーション(事実に基づかない回答)が、そのまま引き継がれてしまう恐れがある。さらに、このプロセスを重ねるごとに、大本の実データから乖離(かいり)したり、新しい情報が欠如したりして、最終的には「モデル崩壊」と呼ばれる現象へとつながる可能性がある。モデル崩壊とは、AIモデルが均質で、有用性の低い出力しか生成できなくなる退行や劣化を指す。元のAIモデルから複数のAIモデルが学習した場合、全てのモデルが同じような出力を生成し、多様性がさらに制限されることとなる。
AIカニバリズムは、以下のようなリスクをユーザーにもたらす可能性がある。
AIカニバリズムの根本原因は、AIが生成した低品質のデータセットの使用にある。以下のような対策を講じて、データ品質の向上を図ることが必要だ。
AIカニバリズムはAIの存在意義すら脅かしかねない。ベンダー、モデル開発者、業界団体、政府機関は、以下のような取り組みを実施する必要がある。
翻訳・編集協力:雨輝ITラボ(リーフレイン)
Copyright © ITmedia, Inc. All Rights Reserved.
なぜクラウド全盛の今「メインフレーム」が再び脚光を浴びるのか
メインフレームを支える人材の高齢化が進み、企業の基幹IT運用に大きなリスクが迫っている。一方で、メインフレームは再評価の時を迎えている。

「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年5月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。

「ECプラットフォーム」売れ筋TOP10(2025年5月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。

「パーソナライゼーション」&「A/Bテスト」ツール売れ筋TOP5(2025年5月)
今週は、パーソナライゼーション製品と「A/Bテスト」ツールの国内売れ筋各TOP5を紹介し...