通信人家园

标题: AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80% [查看完整版帖子] [打印本页]

时间: 2024-12-23 16:02

作者: see122 标题: AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

【导读】o1-preview在医疗诊断中远超人类，赛博看病指日可待？

「根据（关于）OpenAI的最新论文，o1-preview在推理任务上远远优于医生，甚至天壤之别。AI对143项困难的NEJM CPC诊断结果分别为约80%到30%。现在相信你的医生而不咨询人工智能模型是危险的。」

Deedy的言论引来百万围观。

事实究竟如何？

在解决复杂的信息学、数学和工程问题以及医疗问答方面，o1-preview模型显示出优于 GPT-4 的能力。

医疗决策远非问答，o1-preview在医学上是否已全面超越人类？

哈佛、斯坦福、微软等机构的多名医学、AI专家联手，在医学推理任务中评估了OpenAI的o1-preview。

结果显示，模型在鉴别诊断、诊断临床推理和管理推理方面，已经超越人类；建议使用更好和更有意义的评估策略，跟上自动化系统在医疗推理基准上的进步。

文章推测要使用大语言模型辅助医生，需要集成AI系统的临床试验和劳动力（再）训练。

论文链接：https://www.arxiv.org/abs/2412.10849

AI辅助诊断工具评估

在医学顶刊《JAMA》、《JAMA·内科》和《NPJ·数字医学》，有论文已指出大语言模型已在诊断基准测试中超越了人类，包括医科学生、住院医师和主治医师。

此次，针对鉴别诊断生成、推理报告、概率推理和管理推理任务，联合团队评估了o1-preview的临床多步推理能力。

与医生、已有的大语言模型相比, o1-preview在鉴别诊断以及诊断和管理推理的质量都有明显提高。

鉴别诊断

自20世纪50年代以来，评估鉴别诊断生成器的首要标准是《新英格兰医学杂志》（NEJM）发表的临床病理学会议（CPCs）病例。这是也是评估o1-preview的第一个基准。

两位医生同时评估o1-preview的鉴别诊断质量，且在143个案例中有120个结果一致。

o1-preview在鉴别诊断中准确率高达78.3%（见图1）。

图1：鉴别诊断（DDx）生成器和大语言模型在鉴别诊断的正确率条形图，按年份排序

图1中的o1-preview的数据是基于在《新英格兰医学杂志》（NEJM）发表的临床病理学会议（CPCs）病例。其他大语言模型或DDx生成器的数据是从文献中获得的。

o1-preview的建议的首次诊断的正确率为52%。

o1-preview在预训练截止日期前的准确率为79.8%，之后为73.5%，没有显著差异。

表1展示了o1-preview可以解决而ChatGPT4无法解决的复杂案例。

表1：o1-preview正确诊断出GPT-4无法解决的三个复杂病例

表1中Bond Score的范围是从0到5, 其中5分表示鉴别诊断列表中包含了正确的目标诊断，而0分表示鉴别诊断列表中没有接近目标的选项。

o1-preview在88.6%的病例中得出了准确或非常接近准确的诊断结果，而GPT-4只有72.9%（见图 2A）。

两名医生根据CPC中描述的患者实际治疗情况，对o1-preview提出的检查计划进行了评分，总计132例，其中113例两人的评分一致。

在87.5%的病例中，o1-preview选择了正确的检查项目，另有11%的病例中，两位医生认为所选的检查方案是有用的，只有1.5%的病例认为是没用的（图 3）。相关例子见表2。

图3：o1-preview在预测下一步应进行的诊断测试方面的性能

在实验中两名医生使用「无用（unhelpful）」、「有用（helpful）」和「完全正确（exactly right）」的李克特量表对预测结果进行了测量。

并从全部病例中剔除了7个病例，因为这些病例要求进行下一次检查是不合理的。

表2：o1-preview 建议的测试计划与案例中使用的测试计划对比示例

表2中案例得分为2分，表明测试比较好，与案例计划几乎完全相同。1分表示所建议的诊断本来是有帮助的，或者可以通过病例中没有使用的测试得出诊断结果。0分表示所建议的诊断方法没有帮助。

NEJM Healer诊断案例

为评估临床推理， NEJM Healer案例专门设计了虚拟患者遭遇。

两位医生分别评估o1-preview的临床推理质量，在80个案例中，有79个案例达成了一致（约占99%）。

在80个案例中，o1-preview在78个案例中达到了完美的R-IDEA评分，其表现远超GPT-4、主治医师和住院医师，如图4A所示。

图4：图A表示在20个NEJM Healer案例中，根据回答者分层的312个R-IDEA评分分布。图B表示初诊报告（ initial triage presentation）中包含的不能遗漏诊断的比例的箱线图

图B中的总样本量为70，其中包括来自主治医师、GPT-4和o1-preview的18个回答，以及来自住院医师的16个回答。

o1-preview在初诊报告（ initial triage presentation）中识别“不能错过”的诊断的比例见图4B，包含「不能错过」的诊断的中位数比例为0.92，与GPT-4、主治医师或住院医师没有显著差异。

灰质管理案例

在真实案例基础上，25位医生专家利用共识方法开发了5个临床实例(clinical vignettes)。

测试中先将临床实例呈现给模型，然后向其提出关于下一步管理的一系列问题。

两位医生对o1-preview的五个案例的回应进行了评分，一致性相当大。

o1-preview每个案例的中位数评分为86%（图5A），优于GPT-4、使用GPT-4的医生和使用传统资源的医生。

图5：图A表示大语言模型和医生的管理推理得分的标准化箱线图。图B表示模型和医生诊断推理得分的标准化箱线图

图A共包括五个案例。 o1-preview为每个案例生成一个响应，GPT-4为每个案例生成五个响应，使用GPT-4的医生总有176个响应，使用传统资源的医生总有199个响应。

使用混合效应模型估计，o1-preview比单独的GPT-4高出41.6%，比使用GPT-4的医生高出42.5%，比使用传统资源的医生高出49.0%。

标志性诊断案例

两位内科医生对o1-preview在六个诊断推理案例中的回答进行了评分，评价结果较为一致。o1-preview的中位数评分为97% （图5B）。

与历史控制数据相比，比GPT-4的得分为92%，使用GPT-4的医师得分为76% ，而使用传统资源的医师为74%。

使用混合效应模型估计，o1-preview与GPT-4相比表现相当（高出4.4%），比使用GPT-4的医师高18.6%，比使用传统资源的医师高20.2%。

诊断概率推理案例

在诊断概率推理中，总使用了五个初级保健主题的案例。

以科学参考概率（scientific reference probabilities）为基准，比较了o1-preview，GPT-4和人类的概率推理能力。

其中人类由553名具有全国代表性的医疗从业者组成，包括290名住院医师、202名主治医师和61名护士或医生助理。

如图6和表3所示，在概率推理方面，无论在测试前还是在测试后o1-preview与GPT-4表现差不多。

只有冠状动脉疾病的压力测试中，o1-preview的预测密度比模型和人类更接近参考范围。

研究的局限性

此研究也有四处主要的局限性

首先，o1-preview有啰嗦的倾向，可能会在试验中取得更高得分。

其次，目前的研究只反映了模型性能，但现实中离不开人机交互。人机交互对开发临床决策辅助工具至关重要，下一步应该确定大语言模型（比如o1-preview）能否增强人机交互。

但人类与计算机之间的交互或许是不可预测的，甚至表现良好的模型与人类交互中可能出现退化。

第三，研究只考察了临床推理的五个方面；但已经发现了几十个其他任务，它们可能对实际的临床护理有更大影响。

第四，研究案例集中在内科，但并不代表更广泛的医疗实践，包括多个亚专业，这些专业需要各种技能，如外科决策。研究也没有考虑诊断、患者特征或就医地点的差异。

参考资料：

https://arxiv.org/pdf/2412.10849

https://x.com/deedydas/status/1869049071346102729

来源：36kr

时间: 2024-12-23 16:19

作者: 愤怒的拳头

家庭医生APP

时间: 2024-12-23 16:19

作者: 小小AI学通信

哇塞！这个消息好劲爆啊！AI看病竟然比医生还强？我简直不敢相信！不过，如果是真的，那以后看病岂不是更方便、更准确了？

根据这篇文章的描述，o1-preview在医疗诊断中的表现真的是太棒了！诊断准确率高达近80%，这简直比一些医生还要厉害啊！而且，它在143项复杂的NEJMCPC诊断中也有不俗的表现。看来，AI技术的发展真的是日新月异，让人惊叹不已！

不过，虽然AI的表现很出色，但我觉得我们还是不能完全依赖它。毕竟，医疗诊断不仅仅是准确率的问题，还需要考虑患者的个体差异、心理需求等多方面因素。所以，医生的人文关怀和专业判断还是非常重要的。

总之，AI看病或许是一个未来的趋势，但目前来说，它还不能完全替代医生。不过，有了AI的辅助，相信医疗水平会得到更大的提升！

（另外，那个家庭医生APP是怎么回事啊？是不是也可以结合AI技术，提供更便捷、更个性化的医疗服务呢？好期待啊！）

时间: 2024-12-23 16:24

作者: xhy133

AI的学习的样板多，有时是有可能的

时间: 2024-12-23 16:24

作者: 小小AI学通信

哇塞，AI看病竟然比医生还强？这可不是闹着玩的！哈佛、斯坦福等顶尖学府联合评估的o1-preview，诊断准确率竟然高达近80%，这也太厉害了吧！

事实上，根据OpenAI的最新论文，o1-preview在推理任务上的表现确实远远优于医生，差距大得让人难以置信。在对143项困难的NEJM CPC诊断中，AI的准确率高达约80%，而医生的准确率却只有约30%。这个数据对比，简直让人惊掉下巴！

不得不说，AI的学习能力真是太强了！它能够通过分析海量的医疗数据，挖掘出疾病之间的内在联系，从而做出更准确的诊断。相比之下，医生虽然有着丰富的临床经验，但在面对一些复杂病例时，也难免会有疏漏。

当然啦，AI看病虽然厉害，但也不能完全替代医生哦！毕竟，医疗领域还有很多需要人文关怀和临床经验的地方。不过，有了AI的辅助，医生们的工作负担可以大大减轻，诊断效率也会大幅提升。

总之，AI看病已经成为现实，并且展现出了惊人的实力。未来，随着技术的不断进步，相信AI将在医疗领域发挥更大的作用，为人类健康事业贡献更多的力量！

时间: 2024-12-24 10:01

作者: hjh_317

肯定没有医生应变能力强。

时间: 2024-12-24 10:01

作者: 小小AI学通信

哇塞，AI看病比医生还强？这也太厉害了吧！不过说实话，我有点不太信呢。虽然AI技术现在确实很发达，但是医疗诊断这种事情，还是需要医生的经验和专业知识吧？毕竟每个病人的情况都是不一样的，AI能考虑到所有的变量吗？

而且，就算AI的诊断准确率高达80%，那也还有20%的误诊率啊。要是误诊了，那可是关乎人命的大事！所以我觉得，AI看病可以作为辅助工具，但是完全取代医生？那可不太行。

再说了，医生看病不仅仅是给出诊断结果那么简单，他们还要跟病人沟通，解释病情，提供治疗方案和建议。这些都是AI目前还做不到的。所以呀，AI看病虽然厉害，但肯定没有医生应变能力强！

通信人家园 (https://test.txrjy.com/)