医療機関がコロナ対策に「Apache Kafka」を活用 ストリーム処理の実力は:実例で探る「Apache Kafka」の可能性【前編】
ストリーム処理を実現する「Apache Kafka」は、どのような場面で役立っているのか。米国における新型コロナウイルス感染症の臨床実験データ収集プロジェクトでの活用事例を紹介する。
米国疾病管理予防センター(CDC:Centers for Disease Control and Prevention)は、全米の新型コロナウイルス感染症(COVID-19)の臨床試験に関する報告を集約した電子検査レポート「COVID-19 Electronic Laboratory Reporting」(CELR)の導入を進めている。
併せて読みたいお薦め記事
アプリケーションでのデータの扱い方
- 「リーグ・オブ・レジェンド」のデータはどのように管理されているのか?
- 休校中の児童の食事を助ける「SAP4Kids」が“爆速”で開発できた理由
- FinTech企業が大規模導入で学んだ「GraphQL」の注意点とは?
データ処理に利用できる製品・サービス
CELRシステムのストリーム処理部分に活用するのは、オープンソースのメッセージキュー/ストリーム(連続的に発生し続けるデータ)処理ミドルウェア「Apache Kafka」(以下、Kafka)だ。この取り組みを援助する航空宇宙および防衛企業Northrop Grummanは、CELRシステムの構築と管理を支援している。
新型コロナ実態把握に「Kafka」を生かす
Kafkaを開発したのは、ビジネス向けソーシャルネットワーキングサービス(SNS)を運用するLinkedInだ。Kafkaをベースにしたストリーム処理ミドルウェアを提供するConfluentは、2020年8月24〜25日にKafkaに関するオンラインカンファレンス「Kafka Summit」を開催した。そのユーザーセッションに登場したのは、Northrop Grummanでエンタープライズアーキテクトを務めるリシ・タラール氏だ。
セッションでタラール氏は、全米の医療施設や臨床試験施設からのストリームを、Kafkaを使用してCELRシステムに送る方法を説明した。こうしたストリームは、COVID-19のパンデミック(世界的大流行)の状況を正確に分析できるようにするために必要だ。
状況やデータが目まぐるしく変化する中、Kafkaのストリーム処理機能は「データを継続的に移動する上で重要な役割を果たす」とタラール氏は述べる。
CELRシステムはConfluentのミドルウェアやKafkaの他にも、複数ベンダーの製品・サービスから成る。例えばAmazon Web Services(AWS)のクラウドサービスの中からは、コンテナオーケストレーター「Kubernetes」のマネージドサービス「Amazon Elastic Kubernetes Service」(Amazon EKS)、オブジェクトストレージサービス「Amazon Simple Storage Service」(Amazon S3)を活用。その他、オープンソースソフトウェアの分散処理型全文検索エンジン「Elasticsearch」、データ可視化ツール「Kibana」なども使っている。「場所や管轄を問わず米国全土で実施した全ての臨床試験について、事実に基づく情報を提供できるようにした」とタラール氏は語る。
重要なのは、ストリーム処理技術を大規模に使用することが、複雑なデータ処理の問題解決に寄与し得るということだ。
TechTarget発 先取りITトレンド
米国TechTargetの豊富な記事の中から、最新技術解説や注目分野の製品比較、海外企業のIT製品導入事例などを厳選してお届けします。
Copyright © ITmedia, Inc. All Rights Reserved.