データからバイアスを取り除く「責任あるAI」（Responsible AI）の取り組み：データは中立ではない

偏見や差別意識を持たず、中立性を重視して作成したはずのAIが不公平な結果を出力することがある。なぜこのようなことが起こるのか。責任あるAIを実現するためにはどうすればよいのか。

≫ 2021年07月01日 08時00分公開

[Triveni Gandhi，Computer Weekly]

　データや数値は議論の余地のないものだと考えられがちだ。だが、あらゆる情報はそこに埋め込まれたコンテキストの産物だ。本質的に、データにはバイアス（訳注）が含まれている。AIがビジネスや倫理において重大な過ちを犯すことの多さがそれを示している。

訳注：機械学習においては学習アルゴリズムに「バイアス」を用いるが、本稿のテーマである「偏見」とは全く異なる概念。

　一つ例を挙げよう。ある著名なソフトウェア開発者が「Apple Card」の融資限度額の通知を受け取ったときのことだ。彼は融資限度額が妻のそれよりもはるかに高いことを発見した。妻のクレジットスコアの方が高いにもかかわらずだ。このショックをツイートしたところ、共有資産にも信用履歴にも差がない夫婦の融資限度額が同じく異なっていることが報告された。

　あからさまな不公平はどのようにして生まれるのか。Appleが女性を低くするモデルを意図的に作成したとは考えにくい。融資限度額を決めるAIは、バイアスが含まれているデータを使ってトレーニングされていたのだ。

　このデータのバイアスとはどのようなものか。Appleは、過去の個人融資限度額に関連するデータと信用履歴や収入レベルなど、さまざまな情報を使った可能性が高い。このデータは世界を反映していると見なされるため、結果は中立で偏りがないと思えるかもしれない。

　ただし、その世界自体が融資慣行、賃金格差、信用アクセスの点で偏見に満ちている。その世界を反映したデータでトレーニングされたAIは、偏見を助長してしまう。

AIの真実との対決

　素晴らしいことに、研究者と倫理学者が協力して偏ったデータの悪影響を軽減し、責任あるAI（Responsible AI）を通じてよりポジティブな結果を生み出す技術を開発している。同時に、多くの企業が責任あるAI戦略へと移行している。そうした企業はデータの取り込み、クリーニング、変換にも力を注いでいる。そうした企業はAIの開発、実装、監視、テストにおいて責任のある慣行に従っている。

　責任あるAIの維持に最善で最もきめ細かなアプローチが求められるのはライフサイエンス、特に医療業界だ。医療業界では医学上のバイアスがアルゴリズムに複製される例が数多く存在する。

　米国の大手医療サービス企業が、医療行為の追加によってメリットを得ることができる患者を予測するアルゴリズムを2019年に販売した。このアルゴリズムは最も健康状態が悪い黒人患者の医療ニーズを過小評価し、ほぼ全ての場合において白人患者のリスクが高く、追加の医療行為が必要だと見なした。

　アルゴリズムは、米国における医療の現状を考慮していなかった。米国において医療費は人種と密接に関係している。有色人種は一貫して医療を受ける頻度が少なく、結果的に医療費も低くなる。アルゴリズムの開発者は、人種を変数から取り除くことが公平につながると考えたのかもしれない。だが実際は偏見を自動化して助長するだけだった。これは単独の事象ではなく、コストにフォーカスして人種を考慮しないモデルを作成したのはこの例だけではない可能性が高いことに注目する必要がある。

可能なこと

　特にライフサイエンス業界では、企業はモデル化に着手する前にデータのバイアスを見つけようとし、バイアスが持ち込まれることを可能な限り避けるようになっている。

　この取り組みはデータ収集の時点から始まる。データ収集自体がバイアスの出発点になるからだ。バイアスを探るため、データシートを使ってデータセットを調査する。このデータシートは

データをどのように収集したか
データをいつ収集したか
どの主要グループがデータから欠落している恐れがあるか
データは知りたい現実を実際に反映しているかどうか

といった質問で構成される。

　データシートはコーネル大学で2018年に生まれた。同大学は、機械学習コミュニティーにはデータセットをドキュメントにするための標準化されたプロセスがないことを認識していた。同大学のコンピュータサイエンス学部は、データシートによって「データセットの作成者と利用者のコミュニケーションを促進し、機械学習コミュニティーが透明性と説明責任を優先することが奨励される」と考えた。

　データシートの使用は、特にライフサイエンス、銀行、小売り、保険などの業界で標準手法になりつつある。データシートはバイアスを生む恐れのある原因への透明性を高める。その結果、構成、ラベル付け、プリプロセッシング、目的のある使用と配布に関する責任あるAIプラクティスも促進される。前述の業界では、探索的データ分析（EDA）も適用されている。EDAはデータの中立性を重視し、データに含まれる根本的なバイアスの探索を支援する。

　責任あるAIに対する特効薬はない。だが、適切な場所から始めれば実現は可能だ。無意識のバイアスを最小限に抑えて最終的に取り除くためには、常にデータに疑問を投げ掛ける。そうすればAIの新たなライフサイクルと既存のライフサイクルを改善でき、誤った使用や意図しない結果が生じるリスクは少なくなる。

トリベェニ・ガンジー氏はDataikuのシニアデータサイエンティスト。

TechTargetジャパントップエンタープライズAI