検索
特集/連載

米国大学病院の医療用テキストマイニングツール活用事例、導入の苦労や成果は?電子カルテや医師のメモを自然言語処理で分析

ペンシルベニア大学系列の医療グループ「Penn Medicine」は、自然言語処理技術で非構造化データを利用して、分析の質や患者ケアの向上につなげた。導入から活用までのプロセスや課題を紹介する。

Share
Tweet
LINE
Hatena
Penn Medicine
ペンシルベニア大学系列の医療グループ「Penn Medicine」のWebサイト《クリックで拡大》

 ペンシルベニア大学系列の医療グループ「Penn Medicine」(注1)は、多くの組織が抱えているのと同じ問題に直面していた。それは、大量の貴重なデータが既存のコンピュータで分析できないことだった。データが自由記述など、構造化されていない方法で入力されていたからだ。

※注1:ペンシルベニア大学医学部と、ペンシルベニア大学ヘルスシステム(ペンシルベニア大学病院を中心に、複数の医療施設が加盟している医療ネットワーク)で構成されているグループ。

 「非構造化データを検索、分析するには膨大な時間がかかっていた」と、Penn Medicineのバイオバンク部門インフォマティクス担当ディレクターを務めるデビッド・バートウェル氏は語る。だが、研究プログラムで非構造化データが欠けてしまうと、研究者は、患者や病状、治療プロトコルをできるだけ完全に把握することができなかった。

 「深い研究をするには、こうしたリソースから情報を引き出すことが絶対に必要だった。Penn Medicineが研究の最前線に立ち続けるためにこうした情報を得る必要があるのは、火を見るよりも明らかだった」。バートウェル氏は、Penn Medicineが抱えていた膨大な非構造化データについて、そう振り返る。

 実際、Penn Medicineの幹部は何年も前から、そうした非構造化データに取り組む必要があることを認識していたと、バートウェル氏は語る。だが、数年前にようやく、自然言語処理(NLP:Natural Language Processing)技術が、期待した効果を実現するほど成熟したと考えるようになったという。NLPは、Penn Medicine幹部が、非構造化データへアクセスするための切り札と考えた人工知能(AI)の一種だ。

 「われわれは、われわれの大学の研究者が画期的な研究に取り組めるようにしたい。そのためには、彼らは数百万件のテキスト記録の非離散的な部分から、高品質の情報を引き出す必要がある。さらに、その作業を迅速かつ効率よく実行する必要があり、そのプロセスにおいてプライバシーを尊重しなければならない」(バートウェル氏)

 そこでPenn Medicineは、Linguamaticsのテキストマイニングプラットフォーム「I2E」ベースの医療機関向けNLPプラットフォーム「Linguamatics Health」を導入し、クエリの作成と、非構造化情報を含むさまざまなソースのデータを自動でテキストマイニングできるようにした。非構造化情報には例えば、電子医療記録(EHR)や専門診療科の報告書に記録してある医師のメモなどがある。こうした文書は多様な形式の非構造化データを含み、特に顕著なのが、自由記述テキストや、専門的な医療用語を含むテキスト(病理報告書など)、不連続データポイントと自由記述テキストの組み合わせを含む文書だった。

 バートウェル氏によると、Penn Medicineは市場を調査し、NLP技術を導入済みの医療機関から話を聞いた上で、Linguamaticsの技術を選定した。Linguamatics Healthの概念実証(PoC)として幾つかのプロジェクトを実施した後で、Penn Medicineは2015年に、同プラットフォームを広く導入したという。

データドリブン文化への入り口

 NLP技術では、テキストや音声内の言葉の処理に機械学習アルゴリズムを適用する。「この技術は、ビジネスインテリジェンス(BI)やアナリティクス製品の一部として提供されるようになった」と、451 Researchのデータプラットフォームおよびアナリティクス部門のシニアアナリスト、クリシュナ・ロイ氏は語る。

 「今ではほとんどの企業がデータドリブンであるか、あるいはそうなりつつあるところだ。データや指標に基づいてビジネスを運営したければ、組織内の人々がデータにアクセスでき、それを理解して分析できなければならない」(ロイ氏)

 BIプログラムはNLP技術を使用して、分析クエリでアクセス可能な情報の幅を広げるとともに、そうした情報を探して分析できる労働者のタイプも広げている。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る