偏見や差別意識を持たず、中立性を重視して作成したはずのAIが不公平な結果を出力することがある。なぜこのようなことが起こるのか。責任あるAIを実現するためにはどうすればよいのか。
データや数値は議論の余地のないものだと考えられがちだ。だが、あらゆる情報はそこに埋め込まれたコンテキストの産物だ。本質的に、データにはバイアス(訳注)が含まれている。AIがビジネスや倫理において重大な過ちを犯すことの多さがそれを示している。
訳注:機械学習においては学習アルゴリズムに「バイアス」を用いるが、本稿のテーマである「偏見」とは全く異なる概念。
一つ例を挙げよう。ある著名なソフトウェア開発者が「Apple Card」の融資限度額の通知を受け取ったときのことだ。彼は融資限度額が妻のそれよりもはるかに高いことを発見した。妻のクレジットスコアの方が高いにもかかわらずだ。このショックをツイートしたところ、共有資産にも信用履歴にも差がない夫婦の融資限度額が同じく異なっていることが報告された。
あからさまな不公平はどのようにして生まれるのか。Appleが女性を低くするモデルを意図的に作成したとは考えにくい。融資限度額を決めるAIは、バイアスが含まれているデータを使ってトレーニングされていたのだ。
このデータのバイアスとはどのようなものか。Appleは、過去の個人融資限度額に関連するデータと信用履歴や収入レベルなど、さまざまな情報を使った可能性が高い。このデータは世界を反映していると見なされるため、結果は中立で偏りがないと思えるかもしれない。
ただし、その世界自体が融資慣行、賃金格差、信用アクセスの点で偏見に満ちている。その世界を反映したデータでトレーニングされたAIは、偏見を助長してしまう。
素晴らしいことに、研究者と倫理学者が協力して偏ったデータの悪影響を軽減し、責任あるAI(Responsible AI)を通じてよりポジティブな結果を生み出す技術を開発している。同時に、多くの企業が責任あるAI戦略へと移行している。そうした企業はデータの取り込み、クリーニング、変換にも力を注いでいる。そうした企業はAIの開発、実装、監視、テストにおいて責任のある慣行に従っている。
責任あるAIの維持に最善で最もきめ細かなアプローチが求められるのはライフサイエンス、特に医療業界だ。医療業界では医学上のバイアスがアルゴリズムに複製される例が数多く存在する。
米国の大手医療サービス企業が、医療行為の追加によってメリットを得ることができる患者を予測するアルゴリズムを2019年に販売した。このアルゴリズムは最も健康状態が悪い黒人患者の医療ニーズを過小評価し、ほぼ全ての場合において白人患者のリスクが高く、追加の医療行為が必要だと見なした。
アルゴリズムは、米国における医療の現状を考慮していなかった。米国において医療費は人種と密接に関係している。有色人種は一貫して医療を受ける頻度が少なく、結果的に医療費も低くなる。アルゴリズムの開発者は、人種を変数から取り除くことが公平につながると考えたのかもしれない。だが実際は偏見を自動化して助長するだけだった。これは単独の事象ではなく、コストにフォーカスして人種を考慮しないモデルを作成したのはこの例だけではない可能性が高いことに注目する必要がある。
特にライフサイエンス業界では、企業はモデル化に着手する前にデータのバイアスを見つけようとし、バイアスが持ち込まれることを可能な限り避けるようになっている。
この取り組みはデータ収集の時点から始まる。データ収集自体がバイアスの出発点になるからだ。バイアスを探るため、データシートを使ってデータセットを調査する。このデータシートは
といった質問で構成される。
データシートはコーネル大学で2018年に生まれた。同大学は、機械学習コミュニティーにはデータセットをドキュメントにするための標準化されたプロセスがないことを認識していた。同大学のコンピュータサイエンス学部は、データシートによって「データセットの作成者と利用者のコミュニケーションを促進し、機械学習コミュニティーが透明性と説明責任を優先することが奨励される」と考えた。
データシートの使用は、特にライフサイエンス、銀行、小売り、保険などの業界で標準手法になりつつある。データシートはバイアスを生む恐れのある原因への透明性を高める。その結果、構成、ラベル付け、プリプロセッシング、目的のある使用と配布に関する責任あるAIプラクティスも促進される。前述の業界では、探索的データ分析(EDA)も適用されている。EDAはデータの中立性を重視し、データに含まれる根本的なバイアスの探索を支援する。
責任あるAIに対する特効薬はない。だが、適切な場所から始めれば実現は可能だ。無意識のバイアスを最小限に抑えて最終的に取り除くためには、常にデータに疑問を投げ掛ける。そうすればAIの新たなライフサイクルと既存のライフサイクルを改善でき、誤った使用や意図しない結果が生じるリスクは少なくなる。
トリベェニ・ガンジー氏はDataikuのシニアデータサイエンティスト。
Copyright © ITmedia, Inc. All Rights Reserved.
生成AIを活用して業務や顧客体験の再構築を進める動きが活性化しているが、その多くが、PoCやラボ環境の段階にとどまっている。なぜなら、生成AIの可能性を最大限に引き出すための、インフラのパフォーマンスが不十分だからだ。
昨今のソフトウェア開発では、AIコーディングアシスタントの活用が主流になっている。しかし、最適なコーディングアシストツールは、開発者や企業によって異なるという。導入の際は、どのようなポイントに注意すればよいのか。
生成AIの活用にはデータベースが重要となるが、従来のデータベースは最新テクノロジーに対応できないなどの課題がある。本資料では、データベースをモダナイズし、生成AIを用いてビジネスイノベーションを生み出すための方法を探る。
ビジネスにおいて、検索体験およびその結果の質の向上が重要なテーマとなっている。顧客はもちろん、自社の従業員に対しても、実用的な答えをより迅速に、手間なく入手できる環境の整備が求められている。
登場以来ビジネスへの活用方法が模索されてきた生成AI。近年では業務組み込みにおける具体的な成功例が数多く報告されている。本資料では、5件の生成AI活用事例を交えて、業務に組み込む上での具体的なアプローチを解説する。
いまさら聞けない「仮想デスクトップ」と「VDI」の違いとは
遠隔のクライアント端末から、サーバにあるデスクトップ環境を利用できる仕組みである仮想デスクトップ(仮想PC画面)は便利だが、仕組みが複雑だ。仮想デスクトップの仕組みを基礎から確認しよう。
「マーケティングオートメーション」 国内売れ筋TOP10(2025年5月)
今週は、マーケティングオートメーション(MA)ツールの売れ筋TOP10を紹介します。
「サイト内検索」&「ライブチャット」売れ筋TOP5(2025年4月)
今週は、サイト内検索ツールとライブチャットの国内売れ筋TOP5をそれぞれ紹介します。
「ECプラットフォーム」売れ筋TOP10(2025年4月)
今週は、ECプラットフォーム製品(ECサイト構築ツール)の国内売れ筋TOP10を紹介します。