European Journal of Human Genetics誌に「Analysis of large-language model versus human performance for genetics questions」というタイトルの論文が報告されている。
遺伝学分野の質問に対してChatGPTと人間のパーフォーマンスを比較した結果だ。85個の選択問題に対して13,642の人間の答えとChatGPTの答えを比べたところ、前者が66.6%の正解率であったのに対し、ChatGPTは68.2%だったそうだ。もちろんこの程度では統計学的に差はないが、人工知能はかなりの線を行く。
人間もChatGPTも、記憶力が試されるような問題に対する回答率の方が、深く考えなければならない問題に対して正解率が統計学的に有意に高かった。人間の方が考えが深いと思ったが、そうでもないようだ。ただし、ChatGPTは同じ質問を複数回繰り返した場合、最初が正しかったか、間違っていたかに関わらず、回答が異なった場合が16%もあったという。
AIによる心電図の判定も70-80%で人工知能は専門家と肩を並べている。これらの数字からもわかるように人間の知識・記憶力・思考力は完ぺきではない。そもそも、医師国家試験のボーダーラインは総得点の80%だ。人間がミスをすると大騒ぎになるが、完璧な答えを常にすることなどできるはずもない。この限界を補完するのが人工知能だ。
ChatGPTが人間を介在することなく、臨床に活用できるかどうかに関しては少し疑問が残るが、これからどんどん学習していくことを考えれば、すぐにでも人間の能力を上回るのは確実だ。
編集部より:この記事は、医学者、中村祐輔氏のブログ「中村祐輔のこれでいいのか日本の医療」2023年6月6日の記事を転載させていただきました。オリジナル原稿をお読みになりたい方は、こちらをご覧ください。