医疗AI的缺失:大模型为何在癌症诊断中集体失灵?

2026-01-07 15:12:22
文章摘要
癌症AI诊断神话破灭:据国外数据显示,病理基础模型准确率跌破50%,在多癌症任务上集体失灵,AI无法理解人体组织形态的复杂性。

过去三年,病理学基础模型是医学AI研究的热点之一是。

这些模型学习吸收数百万张组织切片,有望像病理学家一样诊断癌症。

但最新的研究新研究披露,所谓的基础模型在病理学中频频翻车:准确率不足一半、跨医院性能崩溃、对旋转图像完全失明、能耗高达传统模型的35倍,却几乎无临床增益。

问题不在于算力,不在于数据,而在于根本性的设计缺陷。

 

神话破灭:病理学的独特性壁垒

基础模型(FM,Foundation Model)自诞生以来,凭借在大规模、无标注数据上进行自监督学习的能力 ,迅速席卷医疗影像领域,界普遍预期也能在病理学中复制奇迹。

可结果是残酷的,国外多机构对23种器官、117种癌症的11,444张全切片分析,主流模型UNI、GigaPath、Virchow等在零样本任务中仅获得40%~42%的Top-5准确率。肾脏可达68%,但肺部仅21%。更糟的是,当切片拼接成整体时,性能反而下降。


研究人员指出,这场集体失灵背后有七个深层原因:

生物复杂性 —— 人体组织的语义层次远超一般图像识别,AI无法建模医生12年学习形成的多尺度知识。

自监督学习失效 —— 通用模型依赖自监督学习从大规模数据中提取特征,而人体组织的有效信息密度远低于自然图像,大量冗余的正常组织区域稀释了模型的学习效率。

架构过度复杂 —— 通用模型的巨大参数量带来了沉重的计算负担,这与临床对实时性、低延迟的要求背道而驰。

缺乏病理特异创新 —— 模型照搬通用视觉算法,而非为组织形态学的特性进行定制化架构设计(比如未融入染色不变性等病理特征)。

数据不足 —— 尽管病理图像总量巨大,但高质量、细粒度标注的病理数据仍然稀缺。

组织切片尺寸的设计缺陷 —— 这是最致命的底层缺陷之一。传统通用模型依赖固定尺寸的图像块训练,但在病理学中,关键诊断特征(如肿瘤芽)往往以不规则形态跨越多个图像块,导致模型无法捕捉到整体的上下文和空间关系。

过度通用 —— 通用模型被设计成过度通用,试图用单一架构解决所有问题,但不同癌症类型(如乳腺癌、肺癌)的组织形态学特征差异巨大。

 

从学术泡沫到临床风险

医疗AI在CT等领域表现强势,但人类组织更加复杂,AI目前还无法看懂癌细胞。

据国外最新调查,仅12%的医疗管理者认为现有AI算法足够稳健,却有超过三分之二机构已投资部署。

若部分医院高管为追求AI形象工程,压制福满实验,在无充分验证下上线模型,这种技术冒进,或成为医学AI的最大风险。


 

声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
模型训练
模型部署