汎用大規模言語モデル（LLM）が医療特化型AIより優れもの！？

Nature Medicine誌に「General-purpose large language models outperform specialized clinical AI tools on medical benchmarks」というタイトルの論文が掲載されている。

最近、医療現場ではAIの活用が急速に進んでおり、医師向けの診断・治療支援ツールとして複数のAIの医療特化型AIが広く利用されるようになってきている。しかし、これらの医療専用AIが、汎用大規模言語モデル（Large Language Models: LLM）と比較して本当に優れているのかを、独立した立場から検証した研究は限られていた。

hirun/iStock

上記の論文では、GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6という代表的な汎用LLMと、OpenEvidenceとUpToDate Expert AIの2種類の医療特化AI、およびGoogle検索に組み込まれたGoogle AI Overviewを対象として、その性能をいくつかの角度から比較したものだ。

評価には3種類の指標が用いられた；

（1）米国医師国家試験レベルの500問からなるMedQAによって医学的な知識全般を評価

（2）500例の臨床シナリオに対する判断を医師の回答と比較するHealthBench

（3）実際の診療現場で医師がAIに入力した100件の匿名化質問（Real Clinical Queries：RCQ）を用いて実臨床での有用性を検証

した結果をまとめている。これらの回答は12名の米国医師によって評価された。

その結果、医学的知識ではGemini 3.1 Proが97.4％、GPT-5.2が94.2％と極めて高い正答率を示し、OpenEvidence（89.6％）やUpToDate AI（88.4％）よりも有意に高かった。

（2）のHealthBenchではGPT-5.2が88.0点と突出して高く、Gemini 3.1 Pro（79.3点）、Claude Opus 4.6（77.0点）に続き、医療特化AIは60点台にとどまったのである。（3）の実臨床質問においても、Gemini 3.1 Pro、GPT-5.2、Claude Opus 4.6が上位を占め、OpenEvidenceやUpToDate AIを上回った。

安全性に関しては、有害な回答や幻覚（hallucination・うそ）の発生率はいずれのモデルも極めて低く、差は認められなかった。著者らは、これらの結果に対して、汎用LLMが圧倒的に大規模な学習データを持ち、高度な推論能力と更新サイクルの速さを備えていることが優位性の理由であると考察していた。また、医療AIで広く用いられる検索拡張生成については、不要な情報を取り込むことで性能の低下を招いている可能性が指摘された。

この研究が示す最も重要なポイントは、「医療専用AIであること＝高性能を保証するAIと限らない」ということである。現時点では、GPTやGemini、Claudeなどの高性能な汎用LLMに、適切な医療知識や医療機関固有のデータを組み合わせる方が、より優れた臨床支援システムを作り上げる可能性が高いことが重要だ。これは今後の医療AI開発の方向性を考える上で極めて重要な示唆を与えるものである。