NTTドコモが「テレワークでも安全なデータ分析」を実現した方法：課題だった個人情報を含むデータの扱い

近年のビジネスでは迅速なデータ分析が求められる。データを分析する際に課題になるのは「個人情報の取り扱い」だ。NTTドコモはこの問題をどう解決したのか。

≫ 2024年09月09日 05時00分公開

[梅本貴音，TechTargetジャパン]

NTTドコモは「個人情報を含むデータ」の分析方法をどう変えた？

併せて読みたいお薦め記事

「AI」と「データプライバシー」の問題

　NTTドコモはNTTグループ各社と共に、「dカード」「d払い」といった決済事業から「dtv」「Disney+（ディズニープラス）」などのエンタメ事業まで、多岐にわたるサービスを提供している。

　これらのサービスに共通する重要なシステムとして、顧客との対話を支援するナレッジシステムがある。このシステムには、顧客向けFAQ（よくある質問とその答え）やチャットbotなどが含まれる。

NTTドコモの西本竹靖氏

　このナレッジシステムの開発と運用を担うのが、NTTドコモの情報システム部だ。情報システム部は各ナレッジシステムからデータを取得し、顧客のナレッジシステムに対する満足度や、問題を解決できた割合について、可視化と分析を実施する部署に共有する役割を担っている。

　「日々新しいサービスが登場する中で、なるべく最新のデータを分析し、ナレッジシステムの改善策を早めに検討することが重要です」。こう話すのは、分析業務効率化プロジェクトのリーダーを務めた西本竹靖氏だ。

　ただ、2021年8月以前はナレッジシステムの改善に向けたPDCAサイクルは回っていない状態だったという。原因は、分析用データの準備に掛かる負荷だ。特に、個人情報を含む機密データの取り扱いが大きな課題だった。

　例えば、チャットbotの質問欄やFAQの自由入力欄には、まれに氏名や住所などの個人情報が記載されることがある。NTTドコモは社内規定で、静脈認証が必要なセキュリティエリア外で機密データを扱うことを禁止している。在宅勤務制度はあるものの、分析業務などで機密データを扱う担当者の場合、その業務がたとえ1時間程度であっても出社しなければならない。テレワークで分析をしたい場合は、事前にデータを手作業でマスキングする必要があり、やはり出社が必要になる状況だった。

　新型コロナウイルス感染症（COVID-19）のパンデミック（世界的大流行）で在宅勤務の需要も高まっていたこともあり、NTTドコモは2021年8月頃、自動マスキングツールの選定を開始した。

NTTドコモが選んだツール、その決め手は？

　マスキングツールの選定に当たり、NTTドコモは以下3つの要件を定めた。

フリーテキスト（自由形式で記述されたテキストデータ）をマスキングできる
個人情報を含む機密データを識別できる
データベース格納前にマスキングし、マスキング前のデータはどこにも残さない

NTTドコモの大塚彩乃氏

　同社によると、選定当時、上記の要件を満たす製品は市場で2つしか見つからなかったという。NTTドコモが選んだのは、インサイトテクノロジーのデータ匿名化ツール「Insight Masking」だった。Insight Maskingは、上記3つの要件を満たす他、オンメモリ（注1）でのマスキング処理が可能という特徴がある。

※注1：データ全体をメモリで保持する仕組み。データがストレージに書き込まれることがないため、データ漏えいのリスクを軽減できる。

　決め手となったのはコストとサポートだ。自社開発や他製品と比較してコストを低く抑えられる点と、インサイトテクノロジーのサポートが社内で好評だった点を、NTTドコモは重視した。プロジェクトの実務者である大塚彩乃氏は、「マスキングツールについて、Insight Maskingだけでなく、市場に関する全体的な動向なども親身に教えていただきました」とコメントする。

Insight Maskingの構成と仕組み

　Insight Maskingは、ナレッジシステムに入力されたデータを「マスキングサーバ」に渡す。マスキングサーバは、「ルール処理エンジン」と人工知能（AI）技術を用いて、マスキング箇所を検出する。

　クレジットカード番号など、型が判別しやすい部分はルール処理エンジンで検出し、氏名や住所など、文脈を理解しないと判別できない箇所は、AI技術で検出する。マスキングしたくない項目はホワイトリストを設定し、管理サーバで保持する。管理サーバの設定は即時反映が可能だ。

　マスキング箇所を特定した後は、事前に設定した項目やルールに沿って「マスキング処理エンジン」でマスキングする。細かい指定にも対処可能で、例えば住所の項目について「市区町村は残して、番地以降は削除」することも可能だ。マスキングした部分は見た目で識別できるようになっている。

　マスキング後のデータは一度ナレッジシステム側に返した後、データベースに保存する。NTTドコモの場合、リレーショナルデータベース管理システム（RDBMS）である「MySQL」に格納しているが、「Oracle Database」「Microsoft SQL Server」などにも格納可能だ。データベースに格納したデータは分析ツールに引き渡し、ナレッジシステムの改善に役立てる。

当初は諦めかけた――検証で見えた2つの課題

　リアルタイムマスキングに向けたNTTドコモの検証では、主に2つの課題が見つかったという。

　1つ目が、求められるマスキング精度の高さだ。完全に在宅勤務で分析業務を回すには、マスキング漏れを100％防ぐ必要がある。プロジェクトの調整役である石山省吾氏は「当初はマスキング精度が100％を下回ることを容認する、つまりフルリモート（出社せずにテレワークのみで働く勤務形態）を諦めることも視野に入れていました」と話す。

　2つ目が、需要に見合ったサーバのスペックと台数の見極めだ。リクエスト数（秒間アクセス数）や入力文字数とサーバの性能が合わない場合、システムに遅延が発生してしまう可能性がある。

NTTドコモの石山省吾氏

　1つ目の精度の課題については、インサイトテクノロジーと製品のチューニングを実施した。まず実施したのは社内ルールに基づいた精度の評価軸の策定だ。マスキング項目やルールの優先順位付けをすることで、クリアすべき精度条件を明確化した。

　次はモデルのチューニングだ。作業自体はインサイトテクノロジーが実施し、NTTドコモはナレッジシステムに入力され得る全パターンを洗い出した。NGパターンについては再学習を実施し、1日単位で評価と改善を繰り返してモデルの精度を上げていった。1つの項目の精度を上げると、別の項目が劣化するなどの課題もあったが、半年ほどの調整期間を経て、NTTドコモが定める基準内でのマスキング漏れを0％にした。

　2つ目のサーバ台数の課題については、秒間リクエスト数と入力文字数を基に、求められるマスキング性能を計測し、適切なサーバ台数を算出、追加した。

　ナレッジシステム側にも調整を入れた。ナレッジシステム全体の処理性能に影響を与えないように、ナレッジシステムの自由入力欄への入力可能文字数を制限した他、タイムアウト値を設定して、一定時間内にマスキング済みのデータを返せない場合はエラーを返すようにした。

本番稼働で「驚きの成果」と気になる課題

　2022年10月、NTTドコモはInsight Maskingを本番稼働させた。一部のサービスについては1、2カ月ほど人間によるダブルチェック期間を設けたが、その期間中もそれ以降も、マスキング漏れは発生していないという。

　Insight Maskingの導入によって、分析業務担当者もフルリモートで働けるようになった。それに伴い、分析業務にかかる負担は大幅に軽減。「PDCAサイクルを回せるようになった結果、FAQサイトの解決率の大幅な向上にもつながりました」と大塚氏は話す。

　一方で課題も見えた。NTTドコモは、Insight Maskingのチューニングに当たり、マスキング漏れを最優先で回避することを重視した。その結果、マスキングしなくてよい項目までマスキングしてしまう「オーバーマスキング」が発生した。オーバーマスキングの対象になった項目はホワイトリストに追加して改善しているという。

　「現時点でチューニングはインサイトテクノロジーに一任しているが、自社に知見を蓄えるという意味では、ユーザー企業側もチューニングに参加できる仕組みがほしいと考えています」。西本氏は今後の要望についてそう語る。

将来的には「音声データのマスキング」も

　NTTドコモは今後、コールセンターで収集する音声の分析にInsight Maskingを活用することを検討している。NTTドコモのコールセンターは年間約4000万件の電話問い合わせを受けており、そこで収集した音声データを分析することで、サービスの改善や業務の支援に役立てる計画だ。

　現時点での課題が、音声データのマスキングだ。テキストと違い、会話では流れで言葉の前後関係が頻繁に入れ替わる。音声をそのままテキスト変換したデータをマスキングツールにわたしても、文脈を適切に理解できず、精度の高いマスキングは難しいという。「前後の文脈が曖昧になってしまってもマスキングできるのかどうか、注目しているポイントです」と西本氏はコメントする。

TechTargetジャパントップデータ分析