検索
特集/連載

情シスを惑わす「特化型AI」のわな 汎用LLMが医療専門AIを精度・信頼性で圧倒性能とコストにギャップ

「専門特化型AIこそが正解」という常識が覆されつつある。最新の研究で、GPTやGeminiなどの汎用AIが、巨額投資を受ける医療特化型AIを複数のベンチマークで圧倒した。不透明な「専門AI」のブラックボックス化に警鐘を鳴らし、情シスが決裁前に知るべき、性能とコストのギャップとは?

Share
Tweet
LINE
Hatena

 2022年後半に大規模言語モデル(LLM)が登場して以来、開発者はヘルスケア分野への活用を急ぎ、医療特化型の臨床AIツールを生み出してきた。しかし最新の研究により、一部の医療ベンチマークで汎用AIが特化型臨床AIを上回る性能を示すことが明らかになった。

 『Nature Medicine』誌に掲載されたこの研究では、LLMベースの特化型臨床AIツールである「OpenEvidence」と「UpToDate Expert AI」を、汎用LLMである「GPT-5.2」「Gemini 3.1 Pro」「Claude Opus 4.6」の3つと比較検証した。この結果は、LLMを医療ユースケース専用に設計するという業界の注力方針に疑問を投げかけるものだ。

 特化型臨床AIへの投資は拡大している。2026年初頭、OpenEvidenceはシリーズDの資金調達で2億5000万ドルを調達し、評価額は120億ドルにまで急騰した。同社はその後、音声による遠隔診療やAIコーディング、処方、優先順位付け機能などをリリースし、急速に事業を拡大している。

 特化型臨床AIツールは、汎用AIよりも優れた臨床的性能を提供すると主張している。だが、そのアーキテクチャやベースモデル、学習パイプラインは公開されていない。そのため、医療提供者は独立した証拠なしに価値や安全性を評価せざるを得ない。汎用ツールと比較して、臨床AIの結果の妥当性を検証することは困難な状況にある。

 こうした背景から、ニューヨーク大学ランゴン医療センターとテキサス大学オースティン校の研究チームは、3つの医療ベンチマークを用いてツールの評価を実施した。

 評価には3つのアセスメントが含まれる。1つ目は、医学知識を評価する米国医師免許試験(USMLE)形式の「MedQA」問題500問。2つ目は、専門医との一致度を評価する「HealthBench」500項目。3つ目は、医師が行ったLLMへのクエリから抽出した100件のリアルな臨床クエリ(RCQ)である。RCQでは、12人の臨床医がランダム化・盲検化されたレビューを実施した。

モデルの性能には差があり、汎用AIがトップに

 研究の結果、3つ全ての評価で、汎用的な最先端AIツールが特化型臨床AIツールを上回った。

 MedQAの評価では、Geminiが97.4%と最高の精度を達成し、GPTが94.2%、Claudeが90.2%と続いた。一方、OpenEvidenceの精度は89.6%、UpToDateは88.4%にとどまった。

 HealthBenchの評価でも同様の結果となり、100点満点中GPTが88点で最高スコアを獲得。Geminiは79.3点、Claudeは77点だった。特化型臨床AIツールはこれより低く、OpenEvidenceは62.6点、UpToDateは61.3点だった。

 RCQのベンチマーク評価では、2つの性能層が浮き彫りになった。汎用ツールで構成される第1層は、平均スコアだけでなく個別の質問の大部分で特化型臨床AIツールを上回った。また研究チームは、臨床医が日常的に接する「Google Search AI Overview」もRCQの評価対象に加えた。特化型臨床AIツールの性能は、Google Search AI Overviewと同程度だった。

 研究チームは「臨床AIツールは組織的な正当性を持ち、日常的な使用には安全である可能性が高い。しかし今回の結果は、知識やコミュニケーション、臨床的な整合性の面で最先端モデルより優れているわけではないことを示している」と記している。

 ただし、研究チームは医療提供者が汎用AIツールのみを使用すべきだと主張しているわけではない。むしろ、組織内のデータを活用した独自のLLMを開発し、機密性の低いタスクには汎用モデルと併用することを提案している。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る