4B小模型,重构整个放射科?谷歌MedGemma-1.5正在改写医疗AI的落地逻辑
MRI疾病识别准确率从51%提升到65%,CT相关任务从58%提升到61%,医学语音听写的词错误率从28.2%降到5.2%。
这些不是实验室里的“炫技指标”,而是谷歌最新发布的多模态医疗模型MedGemma-1.5在内部基准测试中的真实表现。更重要的是,它只有40亿参数(4B)。
在一个长期迷信“更大模型 = 更好效果”的行业里,这几乎是一种反叛:医疗AI的未来,可能不再属于最大模型,而属于最能嵌入真实工作流的模型。
如果说过去两年医疗AI还停留在“能力竞赛”阶段,那么MedGemma-1.5的出现,很可能标志着一次结构性转向:从模型竞赛,转向流程竞赛;从能力炫耀,转向系统落地。
真正卡住医疗 AI 的,从来不是算法,而是“用不起来”
外界往往以为,医疗是AI最容易落地的行业:数据多、需求刚、场景清晰。但现实恰恰相反。医疗AI落地的真正瓶颈,不在于模型是否“聪明”,而在于是否能被嵌入真实工作流:
- 影像、文本、语音长期割裂,模型往往只擅长其中一类
- CT、MRI、全切片病理等高维影像,远超通用视觉模型的理解能力
- 医学文档高度非结构化,难以直接进入信息系统
- 医学语音场景极端专业,通用 ASR 错误率高
结果就是:模型很强,但接不进系统;能力很炫,但融不进流程。
MedGemma-1.5的思路并不是“再造一个 AI 医生”,而是换了一个问题:如果我们不直接做诊断,而是做一个可以被开发、被验证、被微调、被规模化的医疗AI底座,会发生什么?
MedGemma-1.5到底是什么?
MedGemma-1.5不是一个“看病的AI”,而是一个用来开发医疗AI的多模态基础模型。它属于谷歌的 HAI-DEF(Health AI Developer Foundations)计划,这个计划的核心目标是:给开发者提供一个可评估、可调优、可扩展的起点模型,而不是一个不可修改的黑盒工具。

图注:MedGemma被明确定位为“开发底座”,而不是终端医疗产品。图片来源:Google研究
产品服务:它提供的不是功能,而是“能力组合”
MedGemma-1.5的核心不是单一功能,而是一组可组合能力:

图注:从2D影像到 3D放射学,从文本到语音,构成完整的多模态能力栈。图片来源:Google研究
核心组件包括:
- MedGemma 1.5 4B:主力模型,面向工作流嵌入
- MedGemma 27B:复杂文本推理场景
- MedSigLIP:影像编码器
- MedASR:医学语音转文本前端
这不是一个“单点工具”,而是一套平台级产品结构。
不是口号,是证据:这次谷歌拿出了完整数据链
1. 高维影像支持
MedGemma 1.5 新增对“3D CT、3D MRI、全切片病理”的原生支持。
在内部基准中:
- CT 疾病分类:58.2% → 61.1%
- MRI 疾病分类:51.3% → 64.7%
- 单张病理切片 ROUGE-L:0.02 → 0.49(接近专用模型PolyPath的0.498)

图片来源:Google研究
2. 纵向影像理解
它开始支持时间序列医学影像理解,即“变化判断”而非“单帧分类”。

图片来源:Google研究
3. 文档理解能力
在医学实验室报告结构化抽取任务的内部基准测试中,MedGemma 1.5的宏F1指标从60%提升至78%。
4. 医学文本能力
- MedQA:64.4% → 69.1%
- EHRQA:67.6% → 89.6%

图片来源:Google研究
5. 医学语音前端:MedASR
- 胸片听写:12.5% → 5.2%(相对下降 58%)
- 多专科听写:28.2% → 5.2%(相对下降 82%)

图片来源:Google研究
差异化:它不是更大,而是更“系统级”
MedGemma-1.5的差异不在于单点指标,而在于产品结构:
维度 | MedGemma 路线 |
|---|---|
模态 | 多模态原生 |
影像 | 支持高维 |
文档 | 结构化抽取 |
语音 | 原生入口 |
部署 | 可微调 |
定位 | 底座而非诊断 |
结构 | 平台化 |

图片来源:Google研究
商业模式:谷歌不是在卖模型,而是在铺基础设施
谷歌的真正打法是:用开源模型换开发者,用开发者换生态,用生态换云端规模。它并不急于直接靠模型收费,而是在做三件事:
1.降低进入门槛(4B、开源、可本地微调)
2.制造依赖关系(Vertex AI、DICOM 原生支持)
3.构建生态惯性(社区变体、黑客松)
这和Android当年的策略高度相似。
市场拓展方法:这不是热闹,而是设计
MedGemma 的推广路径并不是“营销型”,而是“开发者驱动型”:
策略 | 作用 |
|---|---|
开源 | 降门槛 |
Hugging Face | 扩散 |
黑客松 | 场景孵化 |
Vertex AI | 规模化 |
DICOM 原生支持 | 接系统 |
这是一条从实验到生产的设计路径。
未来判断:医疗AI的赛道正在换规则
如果MedGemma这条路线成立,未来医疗AI的竞争将发生三点变化:
1.从“模型能力”转向“流程嵌入”
2.从“参数规模”转向“工程可用性”
3.从“单点产品”转向“系统平台”
如果说过去的医疗AI在比谁更聪明、谁的参数更大,那么MedGemma-1.5给出的答案很明确:真正决定能否改变行业的,不是“最强模型”,而是“最能进入工作流的模型”。它用一个只有4B参数的底座,试图撬动影像、文本、语音、文档、系统对接这整条链路。不是更炫,而是更能用;不是更像医生,而是更像基础设施。所以问题也许不再是:“4B 的模型能不能重构放射科?”而是:
当医疗AI不再只是工具,而开始变成底座,整个行业的组织方式,会不会被重新定义?
这一次,谷歌显然押的是后者。


