文章摘要
大模型研究中,ShortGPT等实验让“大模型存在大量冗余参数”观点似得印证。但梳理前沿研究发现,这些“冗余”参数在模型全生命周期有四重关键作用:为长尾任务建隔离舱、为注意力机制泄压、支撑多步推理链路、为后续适配留空间,Scaling Law仍在发挥作用。

当某大模型研究团队在ShortGPT论文中展示,将LLaMA-2-13B的Transformer层砍掉四分之一后,模型在MMLU多选知识基准上的得分仅从55.0滑落至52.2时,很多人开始质疑:大模型里那些看似空转的参数,真的有存在的必要吗?这条被奉为大模型时代圭臬的Scaling Law,难道要被推翻了?

后续海外知名高校的研究进一步印证了这个现象:大模型深层网络里相邻层的输出几乎完全同质化,直接抽走这些层,模型性能不仅没有崩塌,甚至有时还会微微反弹。这让“大模型存在大量冗余参数”的观点似乎得到了实锤,但深入梳理近两年的前沿研究后会发现,这些被称为“冗余”的参数,其实在模型的训练、推理、后训练全生命周期中,扮演着四种截然不同的关键角色。

第一重作用:为长尾任务搭建专属隔离舱

目前对Scaling Law的最大直觉挑战,来自于小模型的亮眼表现:随着蒸馏技术的突飞猛进,小模型在主流基准测试上的表现已经越来越接近大模型,甚至部分小模型还能打败尺寸更大的同类产品。但实际使用中我们依然能感受到小模型的短板:它们在复杂、罕见的长尾任务上表现乏力,这到底是为什么?

顶尖学术机构与企业的联合研究团队在2026年发布的相关研究给出了答案:我们可以将大模型的语义表示空间类比为一块尺寸有限的白板,在预训练的海量语料中,每一类训练任务都试图在这块板上刻下自己的特征印记。研究团队发现,任务的“效用”由出现频率和特征强度共同决定,即效用=频率×信号强度。

高频任务比如基础语法、常见事实,几乎会出现在每一组训练数据中,哪怕它们的信号强度不高,凭借极高的出现频率也能优先占据白板的核心位置。而低频长尾任务,比如特定的数学推理技巧,可能每隔几百万个token才会出现一次,在小模型有限的空间里,它们根本没有机会站稳脚跟:高频任务本身需要大量向量方向才能完整表达,其训练梯度会持续干扰,把所有试图写入的低频特征挤平。

大模型则凭借海量的参数方向打破了这种内卷:高频任务根本用不完所有的参数空间,这直接拉低了“最弱可用方向”的竞争门槛,让低频长尾任务得以在高频任务不屑触碰的正交角落扎根。这些微弱的特征痕迹可以存活数百万步训练,最终通过复利增长转化为模型的深度理解力。

研究团队通过多参数规模模型实验验证了这一点:他们在2100亿token的预训练语料中注入了两个低频任务,将出现频率压至千万分之一。结果显示,小参数模型在这两个任务上准确率等同于瞎蒙,而1B参数以上的大模型却能完美掌握,哪怕低频任务每四百万个token才出现一次。控制变量实验还证明,当低频任务的出现间隔被拉大时,小模型的准确率会断崖式崩盘,这直接证明了高频任务会不断洗掉低频任务的记忆痕迹。

这也解释了为什么ShortGPT的剪层实验看起来有效:那些被砍掉的冗余参数,其实是为低频长尾任务预留的隔离空间。在训练完成后,这些空间没有被完全占用,看起来像是空转,但在训练阶段,它们正是模型学会复杂长尾能力的关键。

第二重作用:为注意力机制充当数值泄压阀

并非所有的冗余参数都参与了知识记忆。北美高校研究团队在2024年的相关研究中追踪了模型整个训练周期的参数状态,发现很多注意力层和MLP层的冗余从训练早期就稳定存在,它们从一开始就不负责记忆,而是承担数值泄压的功能。

这一机制源于Transformer底层的Softmax归一化算子:每个查询向量分配给上下文所有token的注意力权重之和必须严格等于100%。但在很多场景下,模型的注意力头不需要关注任何上下文,却无法输出全零权重。为了满足这个硬性要求,模型会自发找到一个语义无关的token作为“垃圾桶”,把多余的注意力权重倾倒出去。

句子起始符BOS正是最完美的选择:它只是一个序列开始的标记,不携带任何实质语义,把注意力权重倾倒给它不会干扰模型的正常输出。后续研究还发现,破坏这个起始符对应的注意力权重承载机制,会直接导致模型的困惑度飙升,证明了这个泄压机制的重要性。

第三重作用:支撑多步推理的跨层计算链路

ShortGPT的剪层实验之所以在MMLU上表现良好,是因为MMLU属于单步检索型任务:模型只需要调用已有的事实知识,激活路径相对单一,浅层和深层的配合不需要复杂的串行反馈链。但如果把测试任务换成数学推理或代码生成这类生成式推理任务,剪层会导致准确率瞬间腰斩,甚至接近随机猜测的水平。

深度学习领域知名学者参与的2025年研究进一步解释了这一现象:深层Transformer网络会经历“混合-压缩-精炼”三个阶段。早期层负责混合上下文信息,熵值较高,注意力广泛发散;中间层负责压缩上下文,将复杂的高维信息收窄为低维瓶颈,这一阶段会出现明显的注意力下沉现象;后期层则负责面向具体任务的最终精炼,将压缩后的信息转化为具体输出。

在ShortGPT的剪层实验中,被砍掉的大多是中间压缩层。对于单步检索任务,事实知识在压缩阶段就已经被固化,所以剪层不会影响最终结果;但对于多步推理任务,中间压缩层是连接上下文混合和最终精炼的关键链路,砍掉它们会导致输入到精炼层的信息变成失稳的数值噪音,让多步推理链条无法继续推进。

第四重作用:为后续适配预留可塑性空间

即使模型只需要执行单步检索任务,剪掉这些看似空转的参数依然不可取,因为我们忽略了模型生命周期的最后一个阶段:后训练适配。大模型部署后很少会“一生只推理”,为了对齐新的价值观、适配垂直领域或学习新工具,它们需要持续进行微调、领域适配和强化学习。

顶尖学术团队在2026年的相关研究中指出,模型的后训练可塑性严格受限于剩余参数空间。当模型处于最优训练配比时,预训练后还留有充足的未饱和空间,微调时新知识可以轻松写入,不会出现灾难性遗忘。但如果模型被过度训练,参数空间会被完全填满,此时微调时新知识每写入一行,旧知识就必须被擦掉一行,即便使用最先进的自生成数据方案,也只能决定优先保留哪些记忆,无法从根本上解决空间冲突。

剪枝剪掉的不仅是看起来空转的参数,还有作为可塑性储备的剩余空间。研究证明,剪枝后的模型即便通过海量数据微调,分类任务的性能可以恢复到较高水平,但生成式推理的性能却无法恢复,因为中间压缩层的计算骨架已经被物理性破坏,多步推理的链路无法重建。

回到起点:幂律曲线背后没有免费的冗余

绕了一大圈再回到最初的悖论:ShortGPT之所以能砍掉四分之一的层而基准测试得分几乎不变,是因为这些参数在单步检索类基准上确实没有直接贡献。但这些参数并非真的“空转”,只是它们的作用落在了现有基准测试的覆盖范围之外。

行业长期观察到一个现象:随着模型参数越堆越大,主流基准测试的分数越来越接近天花板,涨幅肉眼可见地放缓,很多人据此宣称Scaling Law已经撞墙。但实际上,幂律曲线依然在平滑延伸,模型的实际能力一直在提升——只是这些提升更多流向了低频、长尾、多步推理这类现有基准测试无法覆盖的领域。

训练时为长尾任务预留的隔离空间、维持注意力机制数值稳定的泄压通路、支撑多步推理的计算骨架、为后续适配预留的可塑性储备,这些冗余参数的四重作用,没有一个会在传统基准测试的分数上显现。我们手中的测试尺子,只能测量高频、主流、单步可检索的能力,而Scaling Law的边际收益,恰恰流向了尺子无法触及的地方。

那条光滑的幂律曲线背后,从来没有什么免费的冗余。

你的AIGC知识价值,正在被看见!塔猴AI达人星火计划,发布课程,赢现金激励!点击加入活动:https://www.tahou.com/article/206587263682970629

AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。

以上内容不代表本平台立场,仅供读者参考