「合成データ」とは何か? COVID-19の治療法研究を迅速化プライバシー課題を克服

患者のプライバシーを保護しながら、新型コロナウイルス感染症(COVID-19)の治療法をいかに早く見つけ出すか。その有力な手段となり得るのが「合成データ」だ。

2020年07月02日 05時00分 公開
[Sean Michael KernerTechTarget]

 世界の医療研究者が、新型コロナウイルス感染症(COVID-19)拡大の解決策を発見すべく、しのぎを削っている。研究者は分析のためにできるだけ多くの臨床データを集める必要がある。だが臨床データに関する大きな課題に直面している研究者は少なくない。プライバシーに配慮し、患者の機密情報を保護しなければならないことだ。

 プライバシーの課題を克服する一つの手段として「合成データ」(シンセティックデータ)の活用がある。合成データは人工的に作成された、個人を特定可能な情報とリンクしていないデータだ。データの暗号化や匿名加工とは別の、医療研究者にとって便利なアプローチを体現している。

「合成データ」とは何か

 合成データは、実データと統計的に同等の合成コピーだ。「全て架空の患者のものとして作られており、そこには実在する個々人の痕跡はない」。イスラエルのヘルスITベンダーであるMDCloneの創業者でCEOのジブ・オフェク氏はそう説明する。

 暗号化や匿名化など、患者のプライバシーを保護する一般的な方法は、患者のプライバシーとデータの利便性のバランスを取ることを目指している。だがプライバシーリスクは依然として残る。プライバシーを保護する入念な工夫が施されていても、データには実在する人々の情報が埋め込まれているからだ。

 合成データには、実在する人の情報は埋め込まれていない。元データの統計的な代理表現であり、そこからさかのぼって個人が特定されるリスクは、「もはや問題にならない」とオフェク氏は説明する。にもかかわらず、合成データは実在する人々のデータとして見えるかもしれないし、そうであるかのように分析できる。分析して得られる結論は「元データの場合と同じだ」(同氏)。

実世界における合成データ

 MDCloneの合成データ技術は、テルアビブにあるシバ医療センター(Sheba Medical Center)でCOVID-19研究の一環として利用されている。「MDCloneシステムは、データからCOVID-19に関する洞察を深めようとする取り組みに不可欠だ」と語るのは、シバ医療センターで副センター長兼最高医療責任者兼最高イノベーション責任者を務めるエーヤル・ジムリッチマン氏(医学博士)だ。

 シバ医療センターはルール上、合成データを患者データだと考えていない。そのために合成データは、研究の是非を審査する施設内審査委員会(IRB)の審査プロセスの対象にならない。「合成データは実際の患者データとは異なり、医療機関が許可していれば研究者は自由に利用できる」とオフェク氏は説明する。

 合成データは、IRBの承認を得ることなくデータ関連の問題の答えを迅速に得る機会を研究者に提供する。また研究者は自身の環境でデータ活用に取り組める。「これは実際のデータでは不可能だ」とジムリッチマン氏は語る。

 ジムリッチマン氏によると、シバ医療センター内外のデータサイエンスグループは、COVID-19患者の経過の予測や治療方針の決定にMDCloneシステムを役立てている。

合成データが洞察の獲得を促進

 MDCloneシステムは、

  • 患者データを収集して整理するための「Longitudinal Data Engine」
  • 分析するための「Discovery Studio」
  • 合成データを作成し、患者データを保護するための「Synthetic Data Engine」

で構成される。2020年4月、MDCloneはCOVID-19向けに事前定義した可視化機能および分析機能セットを含むパッケージ「MDClone Pandemic Response Package」をリリースした。

 医療機関がMDCloneシステムを活用すると、他の医療機関や研究機関などのパートナーとデータの共有や比較、データを使ったコラボレーションを実現しやすくなる。元データを合成データに変換して、パートナーとレビュー結果を共有したり、共同で洞察を開発したりといったことができる。合成データによるパートナーとのコラボレーションを実現すれば「患者のプライバシーやセキュリティを危険にさらすことなく、対話をしながら双方のシステムでデータフローや分析を実行できる」と、オフェク氏は説明する。

 MDCloneシステムを利用する医療機関は、パートナーと「単にオンデマンドでファイルを共有するのではなく、パートナーを自らのデータ環境に招待できる」とオフェク氏は付け加える。パートナーはMDCloneシステムのデータレイクにログインし、各種データやツールを利用して合成データを出力できる。

 医療機関がパートナーによる合成データの自由な利用を可能にすることで、パンデミック(感染症の世界的流行)においては新しい治療法の探索をスピードアップできるというのが、オフェク氏の考えだ。「われわれは、COVID-19との闘いの中で医療専門家が提供できる最高のものを見つけ、広めたいと考えている。実世界の分析を可能にするアイデアの創造やデータのレビューを後押しすることが、そのために進む道だ」(オフェク氏)

TechTarget発 先取りITトレンド

米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。

ITmedia マーケティング新着記事

news047.png

【Googleが公式見解を発表】中古ドメインを絶対に使ってはいけない理由とは?
Googleが中古ドメインの不正利用を禁止を公式に発表しました。その理由や今後の対応につ...

news115.jpg

「TikTok禁止法案」に米大統領が署名 気になるこれからにまつわる5つの疑問
米連邦上院が、安全保障上の理由からTikTokの米国事業の売却を要求する法案を可決し、バ...

news077.jpg

「気候危機」に対する理解 日本は米国の3分の1
SDGsプロジェクトはTBWA HAKUHODOのマーケティング戦略組織である65dB TOKYOと共同で、「...