OpenAI o1 急诊诊断超越医生

根据 Science 报道，一项新研究测试了 OpenAI o1 在临床诊断任务中的表现。OpenAI o1 急诊诊断在早期急诊病例中识别出精确或接近诊断的比例约为 67%，高于医生的约 50% 至 55%。研究同时强调，o1 只读取书面病例信息，尚未覆盖影像、长住院记录等真实医疗输入。

OpenAI o1 急诊诊断的核心结果

OpenAI o1 在多项任务中追平或超过医生。研究团队测试了 OpenAI o1 对不同疾病患者的诊断、下一步处理建议，以及未来健康变化概率估计能力。据 Science 对 OpenAI o1 临床诊断研究的报道，o1 在 5 个基于精选医学档案的任务中表现稳定。在其中一项任务里，o1 在 98% 的病例中获得满分临床推理评分。主治医生达到同等评分的比例为 35%。这一差距反映了大语言模型在结构化解释诊断思路和后续步骤时的优势，但不等于已经验证其可独立承担临床责任。

真实急诊流程中的三阶段测试

急诊测试更接近真实场景。研究者使用 Beth Israel Deaconess Medical Center 的真实急诊病例，并按患者就诊流程分阶段向 o1 提供信息：患者向分诊护士描述症状、医生初步评估、医生决定后续处理。这个设计刻意保留了现实急诊中的不完整信息和表达偏差。早期分诊阶段最难，因为医生必须在信息有限时快速判断。o1 在患者刚进入急诊并只提供有限病情时，精确或接近诊断比例达到 67%，比拿到相同病例的 2 名医生高出超过 10%。随着信息增加，差距有所缩小，但 o1 在后续流程中仍领先医生约 2% 至 10%。

临床推理分数并非真实疗效指标

诊断准确率不能直接等同疗效。研究衡量的是模型在受控病例材料中的诊断和推理能力，而非患者最终生存率、误诊率下降或急诊吞吐效率。参照尺度大致是这样：书面病例诊断属于信息输入相对整齐的任务；急诊早期分诊更接近嘈杂现实；住院患者诊断则可能包含数天病程、检查变化、影像和多学科记录。论文作者之一 Adam Rodman 警告，当前模型未必适合处理住院患者连续多天的复杂信息。他预计在这类长程病例中，模型表现可能下降。

o1 研究限制与医疗 AI 下一步

研究边界十分明确。o1 接收的是书面病例信息，没有处理 CT、MRI、超声、病理图像等非文本输入。血栓、癌症等许多真实诊断高度依赖影像和实验室动态指标。研究也没有回答一个更关键的问题：当模型嵌入真实医疗流程后，是否能改善患者结局。谷歌研究员 Daniel McDuff 认为，下一步需要理解模型如何在护理随时间推进时发挥作用。Rodman 团队也在测试更长期、更广泛的真实世界患者信息。 OpenAI o1 急诊诊断结果说明，前沿大语言模型已经能在部分临床推理任务中超过医生基线。更重要的行业含义是，医疗 AI 的评测焦点正在从静态医学问答转向真实流程中的决策支持。但在影像、多日病程、责任划分和患者结局验证完成前，这类系统更适合被视为医生的辅助工具，而非独立诊断者。

OpenAI o1 急诊诊断超越医生

OpenAI o1 急诊诊断的核心结果

真实急诊流程中的三阶段测试

临床推理分数并非真实疗效指标

o1 研究限制与医疗 AI 下一步

推荐阅读

Anthropic Mythos 被曝发现 macOS 安全漏洞

Coding Agent Index 发布编码智能体组合评测

Anthropic 用宪法文档降低 Claude 代理失准

Claude Mythos 时间跨度达 17 小时但超可靠范围

评论 ···

OpenAI o1 急诊诊断的核心结果

真实急诊流程中的三阶段测试

临床推理分数并非真实疗效指标

o1 研究限制与医疗 AI 下一步

分享

推荐阅读

评论 ···