AIのブラックボックス化を許さないGDPRに注意：EU市民の個人データは鬼門

GDPRはEU圏外の国にも影響を及ぼす。EU市民の個人データを機械学習に利用すると説明責任が生じ、機械学習の内部はブラックボックスだという言い訳は通用しない。

≫ 2019年02月18日 08時00分公開

[Warwick Ashford，Computer Weekly]

　機械学習に個人データを利用するなら、EUの一般データ保護規則（GDPR）に従う必要があると話すのは、StudioAGで主席コンサルタントを務めるアレッサンドロ・グアリーノ氏だ。

　GDPRは、自動的に行われる個人の意思決定やプロファイリングの全てに適用される。こうした自動処理は、人工知能（AI）、特に機械学習アルゴリズムの最も一般的な応用事例だ。同氏はベルギーのブリュッセルで開催されたサイバーセキュリティカンファレンス「EEMA ISSE 2018」でこう語った。

　GDPRは、プロファイリングを「自然人と関連する一定の個人的側面を評価するために、特に、当該自然人の業務遂行能力、経済状態、健康、個人的嗜好、興味関心、信頼性、行動、位置及び移動に関する側面を分析又は予測するために、個人データの利用によって構成される、あらゆる形式の、個人データの自動的な取扱い。」（訳注）と定義している。

訳注：日本語訳は「自動化された個人に対する意思決定とプロファイリングに関するガイドライン」から引用。

　ただし、グアリーノ氏はこれには問題があると話す。機械学習による意思決定システムの大半はルールベースのエキスパートシステムという古いスタイルではなく、「ブラックボックス」になっているためだ。これではGDPRの透明性、説明責任、そしてデータ主体に主導権があるという要件に従うことができない。

　「説明責任はGDPRの主要な基本原則の一つだ。これは機械学習アルゴリズム、中でもディープラーニングやフィーチャーの自動抽出などの新しいツールに非常に大きな課題をもたらす。こうしたツールは、その評価方法や利用対象になるフィーチャー（データポイント）を把握できないためだ」（グアリーノ氏）

　機械学習のモデルは、データ、特に個人データの活用が原動力になるとグアリーノ氏は話す。つまりプライバシーのリスクが存在する。こうしたリスクは個人のプライバシーを尊重する倫理的な方法により、「監視されている」「差別されている」と思われずに乗り越えなければならない。

　グアリーノ氏はもう一つ問題を指摘する。GDPRは、EU圏外のデータ管理者がEU市民の個人データを扱う場合にも適用される。だが米国を始めとする多くの国は、データ主体自身がデータを管理することを法律で規定しておらず、提供されたデータは企業の財産になる。つまり、その企業はそのデータを再利用または再販売できる。

リスクベースのアプローチ

　開発者とサプライヤーは、リスクベースのアプローチを採用する必要があると同氏は言う。GDPRにはチェックリストが用意されていないためだ。代わりに個人データを扱うデータ管理者はデータ主体に及ぶリスクを評価し、データの処理方法について説明責任を果たすことが求められている。

　「GDPRに準拠する方法で機械学習を設計、使用する方法を見つける必要がある。機械学習を正しく実行すれば、サービスプロバイダーにもデータ主体にも価値をもたらすからだ」とグアリーノ氏は話す。

　「アルゴリズムは何らかの方法で説明責任を果たす必要がある。だがその方法はまだ明らかではない。この分野の研究はまだ進行中だ。機械学習プロセスをブラックボックスとして扱うことはできない。どのような過程を経て決定に至るかを明確にしなければならない」（グアリーノ氏）

　GDPRを順守するには、最初からプライバシーとデータ保護を念頭に置いて、個人データを利用する全ての製品やサービスを設計する必要があるとグアリーノ氏は言う。「透明性と説明責任の要件を満たすために、プロセスを文書にして実証しなければならないだろう」

　また、グアリーノ氏によると最低限のデータしか使用しないというGDPRの原則も機械学習アルゴリズムにとっては問題になる可能性があるという。GDPRは、どのようなアクティビティーでも、具体的な目的に必要なデータに限定して処理するよう求めている。

　「機械学習はできる限り多くのデータを必要とするため、この原則を満たすのが難しい。システム開発者は最初からデータの管理に注意を払わなければならない」（グアリーノ氏）

　一般に、GDPRでは3つの条件が一つでも満たされない場合は自動プロファイリングが許可されない。「このアプローチは非常に難しい。満たす必要のある条件の中で最も実行可能な条件は、対象となる個人の明示的な同意だ」とグアリーノ氏は話す。

　「他の条件は、契約を履行するためにその決定が必要な場合、そしてデータ管理者に適用されるEU法またはEU加盟国国法によってその決定が承認される場合だ。だがこれらの条件は明示的な同意の条件よりももっと難しい」（グアリーノ氏）

GDPRに準拠する難しさ

　グアリーノ氏によると、課題はGDPRに準拠した機械学習システムをゼロから設計、開発することだという。機械学習が予測型またはデータ主体に関する決定をサポートするために使用される場合は特に難しくなる。

　「現実には、この種の既存システムの大半は仕様からプライバシーに配慮する原則と説明責任の原則に沿ってリエンジニアリング／再設計しなければならない」（グアリーノ氏）

　「つまり開発者は、アルゴリズムが公正・中立であり、差別的ではないことを明らかにすることに特に注意を払いながら、データ管理などの設計プロセスで行う全てのことを文書にしておく必要がある」と同氏は話す。

　グアリーノ氏によると、アルゴリズムが公正かつ透明でなくてはならないという要件は、多くの場合、人間が意思決定を行うよりも高いハードルになる。その結果、市場にゆがみが生じて画期的なシステムを導入できなくなるか、「弱体化したAI」の導入が進む恐れがある。

　機械学習システムをGDPRに準拠するよう設計することは可能だ。だがそれは簡単ではなく、多くの作業が必要になるだろう。

　「これは、ビッグデータと機械学習に対する考え方を変えることを意味する。開発者だけではなく、ある分野の専門家や法律／データ保護の専門家も必要になるため、分野横断的な能力も求められる。将来何が起きるか、GDPRがどの程度浸透していくかを興味深く見守りたい」（グアリーノ氏）

TechTargetジャパントップデータ分析