医疗AI的缺失：大模型为何在癌症诊断中集体失灵？

2026-01-07 17:09:15

模型训练

模型部署

文章摘要

癌症AI诊断神话破灭：据国外数据显示，病理基础模型准确率跌破50%，在多癌症任务上集体失灵，AI无法理解人体组织形态的复杂性。

过去三年，病理学基础模型是医学AI研究的热点之一是。

这些模型学习吸收数百万张组织切片，有望像病理学家一样诊断癌症。

但最新的研究新研究披露，所谓的基础模型在病理学中频频翻车：准确率不足一半、跨医院性能崩溃、对旋转图像完全失明、能耗高达传统模型的35倍，却几乎无临床增益。

问题不在于算力，不在于数据，而在于根本性的设计缺陷。

神话破灭：病理学的独特性壁垒

基础模型（FM，Foundation Model）自诞生以来，凭借在大规模、无标注数据上进行自监督学习的能力，迅速席卷医疗影像领域，界普遍预期也能在病理学中复制奇迹。

可结果是残酷的，国外多机构对23种器官、117种癌症的11,444张全切片分析，主流模型UNI、GigaPath、Virchow等在零样本任务中仅获得40%～42%的Top-5准确率。肾脏可达68%，但肺部仅21%。更糟的是，当切片拼接成整体时，性能反而下降。

研究人员指出，这场集体失灵背后有七个深层原因：

生物复杂性 —— 人体组织的语义层次远超一般图像识别，AI无法建模医生12年学习形成的多尺度知识。

自监督学习失效 —— 通用模型依赖自监督学习从大规模数据中提取特征，而人体组织的有效信息密度远低于自然图像，大量冗余的正常组织区域稀释了模型的学习效率。

架构过度复杂 —— 通用模型的巨大参数量带来了沉重的计算负担，这与临床对实时性、低延迟的要求背道而驰。

缺乏病理特异创新 —— 模型照搬通用视觉算法，而非为组织形态学的特性进行定制化架构设计（比如未融入染色不变性等病理特征）。

数据不足 —— 尽管病理图像总量巨大，但高质量、细粒度标注的病理数据仍然稀缺。

组织切片尺寸的设计缺陷 —— 这是最致命的底层缺陷之一。传统通用模型依赖固定尺寸的图像块训练，但在病理学中，关键诊断特征（如肿瘤芽）往往以不规则形态跨越多个图像块，导致模型无法捕捉到整体的上下文和空间关系。

过度通用 —— 通用模型被设计成过度通用，试图用单一架构解决所有问题，但不同癌症类型（如乳腺癌、肺癌）的组织形态学特征差异巨大。

从学术泡沫到临床风险

医疗AI在CT等领域表现强势，但人类组织更加复杂，AI目前还无法看懂癌细胞。

据国外最新调查，仅12%的医疗管理者认为现有AI算法足够稳健，却有超过三分之二机构已投资部署。

若部分医院高管为追求AI形象工程，压制福满实验，在无充分验证下上线模型，这种技术冒进，或成为医学AI的最大风险。

以上内容不代表本平台立场，仅供读者参考