医師が論文検索に「TensorFlow」活用、人間なら心が折れる作業も深層学習で効率化:日本腎臓学会のテキストマイニング事例
医師が診療ガイドラインを策定するための論文検索に深層学習を活用した。用いたのはGoogleが開発した「TensorFlow」。人間の労力を減らし、人間が見落としていたものを発掘するなどの効果が得られた。
両手を後ろに回し、腰の辺りを触ってみよう。その奥には腎臓が対となり働いている。腎臓は血液をろ過することで老廃物を体外に排出したり、血圧や体液量を調整したりするなど、人間の体を正常な状態に保つ大切な臓器の1つだ。
腎機能が生活習慣病、肥満、加齢などで低下すると、夜間尿、貧血、倦怠(けんたい)感、むくみ、息切れといった症状が現れ始める。腎障害が長期に及ぶと、総称として「慢性腎臓病」(以下、CKD)と呼んでいる。日本腎臓学会によると、国内のCKD患者数は約1330万人で、成人の8人に1人が該当するという(2005年の推定値)。CKDは新たな国民病として懸念されている。
腎臓は心臓や血管など循環器との関連性も強い。そのため、腎機能が低下すると高血圧を招くなどの影響を及ぼす。東京共済病院の腎臓内科部長、神田 英一郎氏は「CKDの初期段階では自覚症状が少なく、気付く前に脳卒中や心筋梗塞を引き起こしてしまうこともあります」と話す。
併せて読みたいお薦め記事
深層学習とは
深層学習と機械学習の違い
期待される深層学習サービス
CKDが相当に進行すると人工透析が必要になる。CKDを悪化させないためには、いかに機能低下を防ぎ、進行を遅らせるかが重要になる。日本腎臓学会はCKD対策の一環として、かかりつけ医を対象とした「CKD診療ガイドライン」を策定している。ここではエビデンス(科学的な根拠)に基づく標準的な診療指針を可視化しており、CKD診療の向上に寄与している。
現在、CKD診療ガイドラインの改訂委員会は「CKD診療ガイドライン2018」に向けて準備をしている。神田氏も改訂委員の1人だ。CKD診療ガイドラインは学術論文を根拠に診療指針を定めており、客観性や正確性を保つために大量の論文に目を通す必要がある。
神田氏によるとCKDに関連する論文は日本腎臓学会が収集したものだけで1000件ほどあり、最終的にはここから重要そうなものを十数件ほどに絞る。「1次スクリーニング」では、論文の全文ではなくアブストラクトだけを参照する。それでも数が多く、人間が全て手作業でこなそうとすると疲弊してしまう。神田氏と一緒に査読をしている委員が、担当する500件ほどを読み「心が折れました……」とぼやいたそうだ。どんなに必要な作業だとしても、人間なので気力や体力には限界がある。時間もかかる。
そこで神田氏は「テキストマイニングが使えるのではないか」と思い付いた。同氏は医師でIT専門家ではないものの、疫学(個人ではなく集団を対象とし、病気の原因や予防などを研究すること)の経験からプログラミング言語「R言語」などを使った統計処理になじみがあった。また日本腎臓学会にはAI(人工知能)やICTに関する委員会があるなど、情報処理技術に力を入れていたことも後押しとなった。
実現したいのは、大量の論文を読み込み有益な論文を抽出すること。言い換えると、公開されている論文のテキストデータを自然言語処理でテキストマイニングして、探しているテーマと関連性が高い論文をレコメンデーション(推薦)するという流れになる。
コラム:センター試験の“裏技”がテキストマイニング手法に?
テキストマイニングの手法を考えている時、ふと神田氏は大学入試センター試験の「裏技」的解法に利用される、ある傾向を思い出したという。複数の選択肢から回答を選ぶ選択問題では、各選択肢に共通する語を最も多く含む選択肢が、正答となりやすいという傾向だ。同氏はこの傾向をスクリーニングに応用し、人間が選択した論文のアブストラクトに頻出する語を多く含む論文を抽出していった。人間が編み出したテキストマイニング手法ともいえるかもしれない。
1次スクリーニングでは大量の論文から研究デザイン(研究の種類)による選別、検索語による検索、類似論文の検索(ふるい落とした中に取りこぼしがないかどうかを類似傾向から確認)を機械学習で実現した。「2次スクリーニング」では、論文自体の内容で分類して論文検索の精度を高めていくことを機械学習で目指す。機械学習に使用したのは、NVIDIAのGPU(画像処理プロセッサ)「GeForce GTX 1080」を2基搭載したゲーム用PCで、OSは「Windows 10」。そこにPythonと、Googleが開発したオープンソースの機械学習ライブラリ「TensorFlow」をインストールした。
Copyright © ITmedia, Inc. All Rights Reserved.