医生需要怎样的AI?GPT-5、OpenEvidence输掉实战后,我们有了答案

资讯 » 新科技 2025-11-13



机器之心报道

机器之心编辑部

能真正帮到基层的AI,一定要满足2点:安全有效、人(医生)机(AI)协同。

「倒挂」

一纸文件,又将医疗 AI 推到了聚光灯下。

11 月 4 日,国家卫健委发文(以下简称「实施意见」),定调医疗 AI 未来五年的核心目标——「人工智能+基层应用」,被放在「人工智能+医疗卫生」的八大重点方向的首位。

文件明确提出:到 2030 年,基层诊疗智能辅助应用「基本实现全覆盖」



政策层面热度拉满,现实却来了个「倒挂」。

GPT 浪潮汹涌,大城市三甲争相部署 AI,可占比高达 95% 的基层医疗(机构和医生)——却都依旧游离浪潮之外。

至少八成以上的基层医生不会使用 AI 。而就算能用,往往也会因使用的是通用模型,难以得到精准、有效的助力。

可究竟如何用 AI 赋能好基层医疗?

解放军总医院第六医学中心(海军总医院)内分泌科主任医师、全科教研室主任郭启煜等诸多临床专家的判断不谋而合——

第一:安全性与有效性第二:以医生为主体的人机协作能力,医生敢于签字盖章的信任力

而这些要点,在一款医疗 AI 产品——「未来医生 AI 工作室」中都能找到对应落点,政策蓝图有了真正可靠的「落地抓手」。

MedGPT:

用绝对领先的「安全有效性」守住医疗底线

真正的医疗 AI,必须先过两道关:第一关——安全;第二关——有效。

毕竟,哪怕数据上只有万分之一的偏差,落在患者身上,都是无法承受的代价。北医三院骨科主任医师、教授、博士生导师刘忠军曾说,技术的每一次迭代,都应以临床价值为衡量标准,以患者安全为底线。

北医三院运动医学科江东教授也认为:「医疗 AI 的第一性原理,不是聪明,而是安全。」

那问题来了:AI 是否真的安全有效,谁说了算?

未来医生决定不拍脑袋。他们请来一批临床专家,主导制定了一套医疗大模型「通关考」——来自 26 个专科、32 位临床专家们制定了关于「安全性」「有效性」的评估标准,然后用 2069 个真实病例场景,「死磕」测试大模型的安全、有效性表现。

结果让人意外——MedGPT(「未来医生 AI 工作室」的基座)力压 5 大全球主流模型DeepSeek-R1、OpenAI-o3、Gemini-2.5-Pro、Qwen3-235B、Claude-3.7,拿下「最安全((0.912)、最有效(0.861)」双料冠军。实验评测结果与数据已发表论文公开,全过程可复测复现[1]。



图源:arXiv:2507.23486

总的来说,在这场众多专家的深度测试中,5 大通用模型一到高风险场景(比如危重、复杂用药、ICU ),均急速下滑;而医疗专用模型 MedGPT 却依然安全有效稳得住。

总体得分、安全性、有效性,MedGPT(绿色)均领先。



图源:arXiv:2507.23486

再来具体看看——六个主流模型的平均安全性得分,只有 0.547。而MedGPT一骑绝尘,高达 0.912,比第二名整整高出近 20 个百分点。在危重病识别、药物相互作用、并发症预警等高风险指标上,得分几乎贴近满格。有效性方面,MedGPT 依旧拔得头筹——0.861,远远高于其他模型。

而当 MedGPT 在安全和有效性上拉满,由其驱动的医疗 AI 产品——「未来医生 AI 工作室」 ,自然也就有了最坚实的底气。



临床决策 AI 助手 :基层医生的「贴身参谋」

中国的基层医疗,承担着超 5 亿人的健康守护。 但这些医生每天面对的,大多是常见病、多发病。一旦遇到复杂、少见的病例,往往就会陷入两难——信息不全、经验不足、也没人商量。他们急需要一个既快又准、安全可信的临床决策帮手。

而这,正是「未来医生 AI 工作室 · 临床决策 AI 助手」的强项——只需要「输入问题」,AI就会调取高等级医学证据和「专家智能体」,给出综合推理回答。

为了解它的表现,我们咨询专家后问了一个较复杂的问题:「糖尿病合并低睾酮 + 勃起功能障碍 + 高泌乳素血症,能否直接行睾酮替代治疗?」

临床决策 AI 助手迅速生成了一份结构化的决策报告,不仅给出了结论,更逐步呈现了推理过程与循证依据。该回答经权威专家评审,被认为「推理逻辑严密,决策依据可靠」,展现了接近专家级的分析质量。



「未来医生 AI 工作室 · 临床决策 AI 助手」给出回答时,同时亮出的「安全卡」「证据卡」,对基层医生来说也是极大助力。

有了安全卡,即使经验有限,医生也能在关键时刻不慌乱。证据卡则让每个决策有理可依、有据可查——所有证据都来自高等级文献,标注了指南来源、循证等级,甚至能追溯到原文章节,让基层医生决策更自信。



邓春华教授在使用未来医生AI工作室 · 临床决策AI助手进行决策辅助

最近的一场专家评测,也验证了它不光是「看着好」,更是「做得好」。

中山大学附属第一医院泌尿男科主任邓春华教授等几位主委拿出了一批复杂病例,让三位功能相近的「选手」同场竞技,进行临床实战场景的比拼:

GPT-5OpenEvidence未来医生AI工作室 · 临床决策 AI 助手

结果显而易见——未来医生 AI 工作室 · 临床决策 AI 助手,在所有测试的8大维度(多病共存与药物序贯优化、时间窗决策与风险取舍、用药相互作用等等)都拔得了头筹,全面优于两位美国选手。



图源:https://ai.doctorwork.com/comparison

「未来医生 AI工作室· 临床决策 AI 助手,会帮我看到盲区,启发新的思考角度,而不是替我下结论。」邓春华教授总结,「这类思维链式的 AI,能让基层医生也像专家那样看病例——有理、有据、有边界。」

在一线医生测试使用后,更是受到极大认可:「文献证据非常清晰」、「循证逻辑讲得明白」、「最大的优点,是它能告诉你为什么这么做。」

上下滑动,查看更多真实医生反馈



患者随访AI助手: 被延长的「听诊器」

随访,是诊疗的「最后一公里」,却也是风险最容易潜伏的盲区。

但现实是——医生太忙、患者太多、沟通太碎。一个未及时发出的用药提醒,一次被漏接的异常反馈,都可能让前期的所有诊疗努力功亏一篑,甚至将患者推向复发或加重的险境。

一项覆盖浙江省 62 家公立医院的研究,清晰揭示了这一巨大落差:超过 91.2% 的医护人员认为诊后管理至关重要,但受限于人力与时间,仅有 44% 的机构能开展定期随访。 这意味着,超过半数的患者,在离开医院后便处于「失管」状态

医生无力覆盖,患者需求迫切——诊后环节,已成为医疗质量链条上关键的「系统性短板」与风险洼地。

正因如此,未来医生 AI工作室·患者随访 AI 助手的价值不言而喻,如同一位永不疲倦的「智能医助」,7x24 小时延伸了医生的听诊器。「它让我能『看见』那些在院外、却依然需要被关注的病人」,郭启煜教授评价道。



郭启煜教授在 使用未来医生 AI工作室·患者随访 AI 助手 进行随访

患者只需扫描医生提供的二维码,微信里便会住进一位7×24小时在线的AI医助,默默承接起那些重要却繁琐的院外工作

会自动随访的健康管家:根据个人病情,生成个性化健康管理计划,并智能推送健康提醒和复诊安排;随时解惑的答疑专家:当患者在深夜发来「血压又飙到140/90,怎么办?」的疑问,它能立刻分析原因,给出清晰、个性化的建议。时刻在线的安全哨兵:一旦识别到高危信号,比如血压持续升高或用药不良反应,会自动生成「高危预警任务」,直接提醒医生在关键时刻介入。

一切的核心,是清晰的人机协同边界:前者(医生)牢牢掌握所有关键决策的最终拍板权,后者( AI )提升效率。这不仅解放了医生的时间,更从根本上确保了,从诊室延伸到患者生活中的每一次干预,都建立在安全与信任的基础之上



而在基层医生拿不定主意时,「未来医生AI工作室」的患者随访 AI 助手,还内置了「专家智能体」。它将上级医院专家的管理经验,沉淀为一套套可靠的数字化方案,「派驻」至基层。

对患者而言得到的是持续、专业、靠谱的个性化关怀;对基层医生而言,更大幅提升了管理效率和质量,让慢病管理老难题,有了新方法。



基层+AI 的最佳实践

关于「 AI 是否会取代医生」的讨论,答案已凝聚为行业清醒的共识:不会

AI 的终极使命,是成为医生的「超级助手」,将医生从繁琐事务中解放,回归医学「偶尔治愈,常常帮助,总是安慰」的人文本质。

这一底层共识,深植于未来医生 AI 工作室的 DNA 底层。

一方面,未来医生独有的 MedGPT 临床认知决策系统构成了其安全有效性领先的技术基石。另一方面,与诸多临床教授专家的深度共创,人机协作的交互模式,更是其灵魂所在。

时至今日,每个月 MedGPT 仍会在后台抽取真实病例实时分析,再由 100 位医生打分反馈,不断优化。

正因如此,「未来医生 AI 工作室」才能获得数十位学科主委的信任,成为其日常诊疗的得力伙伴。在他们眼中,这已经是「AI 赋能基层」的最佳实践。

「机器永远不会比人类更关心人类。最后拍板签字、为患者兜底的,永远是医生。」未来医生创始人兼 CEO 王仕锐也给这段关系画了一个清楚的句点。

让技术忠于善意,让协作成就更好医疗。 未来医生 AI 工作室的这条路,通向一个更高效、也更具温度的医疗未来。

划重点

1、「AI+基层医疗」是国家重点政策导向场景,被放在「人工智能+医疗卫生」的八大重点方向的首位。

2、临床主委专家们一致认为:能真正帮到基层的 AI,一定要满足 2 点:安全有效+人机协同。

3、未来医生的 MedGPT 在安全有效与临床实战评测中全面领先美国的 OpenAI-GPT5 以及 OpenEvidence。

4、「未来医生 AI 工作室」的临床决策辅助与智能随访能力,被临床主委专家们一致认为是AI 赋能基层医疗的「最佳实践」,也得到了大量的一线基层医生的好评反馈。

安全 · 有效 · 专家共研

立即关注,进入超级医生个体时代



参考文献:

Shirui Wang, Zhihui Tang.A Novel evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains.

https://doi.org/10.48550/arXiv.2507.23486

未来医生AI工作室 与 美国 OpenEvidence、GPT5 临床决策辅助场景评测对比.

https://ai.doctorwork.com/comparison



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。