情シスを惑わす「特化型AI」のわな 汎用LLMが医療専門AIを精度・信頼性で圧倒:性能とコストにギャップ
「専門特化型AIこそが正解」という常識が覆されつつある。最新の研究で、GPTやGeminiなどの汎用AIが、巨額投資を受ける医療特化型AIを複数のベンチマークで圧倒した。不透明な「専門AI」のブラックボックス化に警鐘を鳴らし、情シスが決裁前に知るべき、性能とコストのギャップとは?
2022年後半に大規模言語モデル(LLM)が登場して以来、開発者はヘルスケア分野への活用を急ぎ、医療特化型の臨床AIツールを生み出してきた。しかし最新の研究により、一部の医療ベンチマークで汎用AIが特化型臨床AIを上回る性能を示すことが明らかになった。
『Nature Medicine』誌に掲載されたこの研究では、LLMベースの特化型臨床AIツールである「OpenEvidence」と「UpToDate Expert AI」を、汎用LLMである「GPT-5.2」「Gemini 3.1 Pro」「Claude Opus 4.6」の3つと比較検証した。この結果は、LLMを医療ユースケース専用に設計するという業界の注力方針に疑問を投げかけるものだ。
特化型臨床AIへの投資は拡大している。2026年初頭、OpenEvidenceはシリーズDの資金調達で2億5000万ドルを調達し、評価額は120億ドルにまで急騰した。同社はその後、音声による遠隔診療やAIコーディング、処方、優先順位付け機能などをリリースし、急速に事業を拡大している。
特化型臨床AIツールは、汎用AIよりも優れた臨床的性能を提供すると主張している。だが、そのアーキテクチャやベースモデル、学習パイプラインは公開されていない。そのため、医療提供者は独立した証拠なしに価値や安全性を評価せざるを得ない。汎用ツールと比較して、臨床AIの結果の妥当性を検証することは困難な状況にある。
こうした背景から、ニューヨーク大学ランゴン医療センターとテキサス大学オースティン校の研究チームは、3つの医療ベンチマークを用いてツールの評価を実施した。
評価には3つのアセスメントが含まれる。1つ目は、医学知識を評価する米国医師免許試験(USMLE)形式の「MedQA」問題500問。2つ目は、専門医との一致度を評価する「HealthBench」500項目。3つ目は、医師が行ったLLMへのクエリから抽出した100件のリアルな臨床クエリ(RCQ)である。RCQでは、12人の臨床医がランダム化・盲検化されたレビューを実施した。
モデルの性能には差があり、汎用AIがトップに
「エンタープライズAI」に関連する編集部お薦め記事
研究の結果、3つ全ての評価で、汎用的な最先端AIツールが特化型臨床AIツールを上回った。
MedQAの評価では、Geminiが97.4%と最高の精度を達成し、GPTが94.2%、Claudeが90.2%と続いた。一方、OpenEvidenceの精度は89.6%、UpToDateは88.4%にとどまった。
HealthBenchの評価でも同様の結果となり、100点満点中GPTが88点で最高スコアを獲得。Geminiは79.3点、Claudeは77点だった。特化型臨床AIツールはこれより低く、OpenEvidenceは62.6点、UpToDateは61.3点だった。
RCQのベンチマーク評価では、2つの性能層が浮き彫りになった。汎用ツールで構成される第1層は、平均スコアだけでなく個別の質問の大部分で特化型臨床AIツールを上回った。また研究チームは、臨床医が日常的に接する「Google Search AI Overview」もRCQの評価対象に加えた。特化型臨床AIツールの性能は、Google Search AI Overviewと同程度だった。
研究チームは「臨床AIツールは組織的な正当性を持ち、日常的な使用には安全である可能性が高い。しかし今回の結果は、知識やコミュニケーション、臨床的な整合性の面で最先端モデルより優れているわけではないことを示している」と記している。
ただし、研究チームは医療提供者が汎用AIツールのみを使用すべきだと主張しているわけではない。むしろ、組織内のデータを活用した独自のLLMを開発し、機密性の低いタスクには汎用モデルと併用することを提案している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
初級エンジニアはもう危険水域 AI安全性の権威が説く、AGI時代の生存戦略
AI安全性研究者のローマン・ヤンポルスキー氏は、AGI(汎用人工知能)が2〜5年以内に実現する可能性があると指摘した。AGIが実現した場合に備え、人間は生活や仕事の変化にどのように備えればいいのか。
AI導入企業の88%が直面する「踊り場」 利益貢献5%未満の現状を打破するには
AI導入が一般化する一方で、投資が利益に結び付かない「AIプラトー(停滞期)」に陥る企業が急増している。技術を導入すれば現場が自発的に活用するという「魔法の思考」が、成果を阻む最大の要因だ。かつてのPC普及期と同様に、真の生産性向上を手にするために必要なデータ基盤、ガバナンス、そして企業文化の再設計を詳解する。
AIの“自信満々なうそ”にだまされる人間 インシデント調査自動化が抱える闇
人手不足が深刻なIT現場で、システム障害対処を自動化するAIエージェントは救世主のように思えるが、全ての提案をうのみにすることは誤りだ。誤った回答を出し続けるAIエージェントに依存すると何が危険なのか。
「ChatGPT」は検索しまくり、「Gemini」は淡泊? AI検索の知られざる実態
生成AIが質問を受け取ると、その裏側でひそかに大量の検索を実行している。「ChatGPT」と「Gemini」の大規模なデータを分析すると、両者の間には明確な違いが存在した。生成AIは裏で何をしているのか。