“会看病”的AI来了!百川M3刷新全球医疗AI基准

2026-01-22 11:55:07
文章摘要
头痛搜出一堆绝症?它像真人医生一样追问,这才是靠谱的AI问诊体验。

你是否也有过这样的经历:身体不适,上网搜索症状,结果被一大堆医学名词吓得不轻,最后得到的却只是一句冰冷的“建议及时就医”?这种体验既低效又令人焦虑。


这正是当前医疗AI面临的核心困境:它们更像一个只会“背医书”的医学生,缺乏真正的临床问诊能力。今天,这个僵局正被打破。





01 博闻强记的“医学生”困境


长久以来,无论是搜索引擎还是通用大模型,在医疗领域都扮演着一个“被动答题者”的角色。用户输入“头痛怎么办”,模型便迅速罗列从脑瘤到颈椎病的各种可能。


这背后是传统医疗AI训练逻辑的缺陷。它的核心是基于“完形填空”式的单轮静态问答,忽略了真实医疗场景中信息高度不对称动态排查的本质。


患者往往无法精准描述病情,而一个负责任的医生首先要做的,是排除危急重症。传统模型缺乏这种主动追问和安全分层的能力,导致其建议要么是宽泛的百科知识,要么因信息不全而隐藏风险。




02 从“被动答题”到“严肃问诊”


百川智能最新开源的Baichuan-M3模型,其最大的突破在于原生具备了端到端的严肃问诊能力


它不再急于给出答案,而是像一位经验丰富的医生,启动一套名为SCAN的缜密追问逻辑。这套逻辑包含安全分层、信息澄清和关联追问。


当用户描述“头晕”时,M3会首先追问:“是一阵一阵的晕,还是天旋地转?有没有伴随恶心呕吐?”这是在优先排查中风等高风险病症。


通过独创的SPAR算法,模型能在有限对话轮次中,精准地问出关键信息,将患者模糊的“不舒服”转化为医生可用的结构化临床数据,从而极大地提升了问诊的准确性与安全性。





03 攻克顽疾:从“基因”里剔除AI幻觉


在严肃医疗场景下,大模型“一本正经地胡说八道”是致命缺陷。百川选择了一条更艰难但更根本的路:将幻觉抑制前移


不同于行业常见的“外挂知识库”方案,M3采用了事实感知强化学习架构。简单说,就是在模型训练的每次奖励与惩罚机制中,都强行加入对医学事实的严苛校验。


这相当于在AI的“思维过程”里内置了一位实时“审稿人”。



M3通过在线事实核查与强化学习结合的独特架构,从源头抑制医疗幻觉。图片来源:新智元


效果是显著的:在不依赖外部工具的情况下,M3的医疗幻觉率降至3.5%



图片来源:新智元


这一数据不仅超越了GPT-5.2,也刷新了全球纪录。对于用户来说,这意味着AI给出的每一条建议,都是基于严谨医学逻辑的“负责任表达”。


独到见解: 在医疗领域,用外部工具(RAG)纠正幻觉如同“亡羊补牢”,而将事实核查“内化”到模型思维中,才是“防患于未然”。百川选择的这条“难而正确”的路,可能重新定义了医疗大模型的安全标准。




04 开源模型与商业应用的双轮驱动


百川此次采用了 “开源核心模型 + 深化商业应用” 的策略。


通过将Baichuan-M3开源,可以吸引全球开发者、研究机构和医院参与生态建设,快速验证和拓展应用场景,建立行业标准。


与此同时,其商业落地的抓手是旗下的医疗应用 “百小应”。接入M3能力后,百小应定位为 “医患翻译官”“全科医生助理”


在患者端,它提供24小时预问诊,生成专业病情摘要;在医生端,它能为医生提供结构化的患者报告,提升诊疗效率。这种B2B2C的模式,旨在通过赋能医疗机构来服务最终用户。


独到见解: 这种“核心能力开源,商业应用闭环”的打法非常巧妙。开源是为了快速建立生态和信任,成为事实上的行业“基础设施”;而闭环应用则是探索可持续商业价值的试验田,两者互为犄角,很可能成为AI医疗公司的主流范式。




05 产品数据:超越基准,比肩人类


评测数据是技术实力的硬指标。在全球权威医疗AI评测集HealthBench及其高难度子集上,Baichuan-M3均获得冠军


图片来源:新智元


更具说服力的是,百川联合150多位一线医生,借鉴医学教育中的OSCE考核方法,搭建了动态的SCAN-bench评测体系


在这个模拟真实临床流程的考场中,M3在病史采集、检查建议、风险评估等多个维度的综合得分,已超越人类医生的平均水平。这种优势,具体源于其在核心临床思维上的卓越表现。


在安全分层、关联追问等核心临床能力上,M3全面超越人类医生基线水平。图片来源:新智元




06 重新定义“好”医疗AI的赛道

M3的差异化优势,在于它重新定义了医疗大模型的竞争维度。


  1. 从“答题机器”到“问诊伙伴”:竞争对手多聚焦于提升单轮问答的准确性,而M3的核心是主动且合理的多轮问诊能力,这更贴近真实医疗场景。
  2. 从“事后纠错”到“事前防控”:行业普遍采用RAG等外部工具来纠正幻觉,属于“事后修补”。M3通过事实感知强化学习,从模型训练源头抑制幻觉,追求更高的内在可靠性。
  3. 从“技术竞赛”到“流程赋能”:M3的目标不仅是赢得评测,更是通过重塑诊前、诊中流程,真正融入医疗体系,帮助医生提效,而非取代医生。




07 C端教育与B端深耕的双轮驱动

面对市场,百川的策略清晰而务实。在C端(消费者市场),通过“百小应”应用提供高质量的免费预问诊服务,教育用户,建立信任和品牌认知,积累海量的真实世界交互数据。


在更核心的B端/G端(机构与政府市场),则与医院、诊所、体检中心、互联网医疗平台及基层卫生机构合作。


作为智能问诊模块或医生辅助工具进行集成,帮助它们提升服务效率与质量,特别是在缓解优质医疗资源分布不均、基层诊疗能力不足等社会性问题上,探索可落地的商业模式。




08 深入AI医疗的“深水区”

2026年,全球AI医疗的竞争已进入攻坚阶段。OpenAI、Anthropic等国际巨头均在布局。Baichuan-M3的出现,标志着中国AI力量从“应用追随”转身为“核心能力定义者”


它的成功证明了,通过对医疗决策过程进行深度建模,大模型完全可以胜任严肃、严谨的临床辅助工作。


展望未来,医疗AI的发展将越来越聚焦于 “专、深、精”:垂直领域的深度优化、与医疗仪器和电子病历系统的深度融合、以及在合规与伦理框架下的精细化落地。


技术是冰冷迭代的算法,但医疗永远需要人性的温度。AI或许永远无法替代医生那双安慰患者的手,但它可以成为医生手中更精准的“听诊器”和“显微镜”。


随着类似Baichuan-M3这样的技术不断突破,AI赋能医疗,缓解老龄化社会下的资源短缺问题,正从一个遥远的愿景加速照进现实。医疗AI的奇点,或许真的就在眼前。

声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
大模型
模型训练
开源大模型