大模型冗余参数不冗余：四重身份揭示Scaling Law真相

2026-06-15 14:37:49

文章摘要

大模型研究中，ShortGPT等实验让“大模型存在大量冗余参数”观点似得印证。但梳理前沿研究发现，这些“冗余”参数在模型全生命周期有四重关键作用：为长尾任务建隔离舱、为注意力机制泄压、支撑多步推理链路、为后续适配留空间，Scaling Law仍在发挥作用。

当某大模型研究团队在ShortGPT论文中展示，将LLaMA-2-13B的Transformer层砍掉四分之一后，模型在MMLU多选知识基准上的得分仅从55.0滑落至52.2时，很多人开始质疑：大模型里那些看似空转的参数，真的有存在的必要吗？这条被奉为大模型时代圭臬的Scaling Law，难道要被推翻了？

后续海外知名高校的研究进一步印证了这个现象：大模型深层网络里相邻层的输出几乎完全同质化，直接抽走这些层，模型性能不仅没有崩塌，甚至有时还会微微反弹。这让“大模型存在大量冗余参数”的观点似乎得到了实锤，但深入梳理近两年的前沿研究后会发现，这些被称为“冗余”的参数，其实在模型的训练、推理、后训练全生命周期中，扮演着四种截然不同的关键角色。

第一重作用：为长尾任务搭建专属隔离舱

目前对Scaling Law的最大直觉挑战，来自于小模型的亮眼表现：随着蒸馏技术的突飞猛进，小模型在主流基准测试上的表现已经越来越接近大模型，甚至部分小模型还能打败尺寸更大的同类产品。但实际使用中我们依然能感受到小模型的短板：它们在复杂、罕见的长尾任务上表现乏力，这到底是为什么？

顶尖学术机构与企业的联合研究团队在2026年发布的相关研究给出了答案：我们可以将大模型的语义表示空间类比为一块尺寸有限的白板，在预训练的海量语料中，每一类训练任务都试图在这块板上刻下自己的特征印记。研究团队发现，任务的“效用”由出现频率和特征强度共同决定，即效用=频率×信号强度。

高频任务比如基础语法、常见事实，几乎会出现在每一组训练数据中，哪怕它们的信号强度不高，凭借极高的出现频率也能优先占据白板的核心位置。而低频长尾任务，比如特定的数学推理技巧，可能每隔几百万个token才会出现一次，在小模型有限的空间里，它们根本没有机会站稳脚跟：高频任务本身需要大量向量方向才能完整表达，其训练梯度会持续干扰，把所有试图写入的低频特征挤平。

大模型则凭借海量的参数方向打破了这种内卷：高频任务根本用不完所有的参数空间，这直接拉低了“最弱可用方向”的竞争门槛，让低频长尾任务得以在高频任务不屑触碰的正交角落扎根。这些微弱的特征痕迹可以存活数百万步训练，最终通过复利增长转化为模型的深度理解力。

研究团队通过多参数规模模型实验验证了这一点：他们在2100亿token的预训练语料中注入了两个低频任务，将出现频率压至千万分之一。结果显示，小参数模型在这两个任务上准确率等同于瞎蒙，而1B参数以上的大模型却能完美掌握，哪怕低频任务每四百万个token才出现一次。控制变量实验还证明，当低频任务的出现间隔被拉大时，小模型的准确率会断崖式崩盘，这直接证明了高频任务会不断洗掉低频任务的记忆痕迹。

这也解释了为什么ShortGPT的剪层实验看起来有效：那些被砍掉的冗余参数，其实是为低频长尾任务预留的隔离空间。在训练完成后，这些空间没有被完全占用，看起来像是空转，但在训练阶段，它们正是模型学会复杂长尾能力的关键。

第二重作用：为注意力机制充当数值泄压阀

并非所有的冗余参数都参与了知识记忆。北美高校研究团队在2024年的相关研究中追踪了模型整个训练周期的参数状态，发现很多注意力层和MLP层的冗余从训练早期就稳定存在，它们从一开始就不负责记忆，而是承担数值泄压的功能。

这一机制源于Transformer底层的Softmax归一化算子：每个查询向量分配给上下文所有token的注意力权重之和必须严格等于100%。但在很多场景下，模型的注意力头不需要关注任何上下文，却无法输出全零权重。为了满足这个硬性要求，模型会自发找到一个语义无关的token作为“垃圾桶”，把多余的注意力权重倾倒出去。

句子起始符BOS正是最完美的选择：它只是一个序列开始的标记，不携带任何实质语义，把注意力权重倾倒给它不会干扰模型的正常输出。后续研究还发现，破坏这个起始符对应的注意力权重承载机制，会直接导致模型的困惑度飙升，证明了这个泄压机制的重要性。

第三重作用：支撑多步推理的跨层计算链路

ShortGPT的剪层实验之所以在MMLU上表现良好，是因为MMLU属于单步检索型任务：模型只需要调用已有的事实知识，激活路径相对单一，浅层和深层的配合不需要复杂的串行反馈链。但如果把测试任务换成数学推理或代码生成这类生成式推理任务，剪层会导致准确率瞬间腰斩，甚至接近随机猜测的水平。

深度学习领域知名学者参与的2025年研究进一步解释了这一现象：深层Transformer网络会经历“混合-压缩-精炼”三个阶段。早期层负责混合上下文信息，熵值较高，注意力广泛发散；中间层负责压缩上下文，将复杂的高维信息收窄为低维瓶颈，这一阶段会出现明显的注意力下沉现象；后期层则负责面向具体任务的最终精炼，将压缩后的信息转化为具体输出。

在ShortGPT的剪层实验中，被砍掉的大多是中间压缩层。对于单步检索任务，事实知识在压缩阶段就已经被固化，所以剪层不会影响最终结果；但对于多步推理任务，中间压缩层是连接上下文混合和最终精炼的关键链路，砍掉它们会导致输入到精炼层的信息变成失稳的数值噪音，让多步推理链条无法继续推进。

第四重作用：为后续适配预留可塑性空间

即使模型只需要执行单步检索任务，剪掉这些看似空转的参数依然不可取，因为我们忽略了模型生命周期的最后一个阶段：后训练适配。大模型部署后很少会“一生只推理”，为了对齐新的价值观、适配垂直领域或学习新工具，它们需要持续进行微调、领域适配和强化学习。

顶尖学术团队在2026年的相关研究中指出，模型的后训练可塑性严格受限于剩余参数空间。当模型处于最优训练配比时，预训练后还留有充足的未饱和空间，微调时新知识可以轻松写入，不会出现灾难性遗忘。但如果模型被过度训练，参数空间会被完全填满，此时微调时新知识每写入一行，旧知识就必须被擦掉一行，即便使用最先进的自生成数据方案，也只能决定优先保留哪些记忆，无法从根本上解决空间冲突。

剪枝剪掉的不仅是看起来空转的参数，还有作为可塑性储备的剩余空间。研究证明，剪枝后的模型即便通过海量数据微调，分类任务的性能可以恢复到较高水平，但生成式推理的性能却无法恢复，因为中间压缩层的计算骨架已经被物理性破坏，多步推理的链路无法重建。

回到起点：幂律曲线背后没有免费的冗余

绕了一大圈再回到最初的悖论：ShortGPT之所以能砍掉四分之一的层而基准测试得分几乎不变，是因为这些参数在单步检索类基准上确实没有直接贡献。但这些参数并非真的“空转”，只是它们的作用落在了现有基准测试的覆盖范围之外。

行业长期观察到一个现象：随着模型参数越堆越大，主流基准测试的分数越来越接近天花板，涨幅肉眼可见地放缓，很多人据此宣称Scaling Law已经撞墙。但实际上，幂律曲线依然在平滑延伸，模型的实际能力一直在提升——只是这些提升更多流向了低频、长尾、多步推理这类现有基准测试无法覆盖的领域。

训练时为长尾任务预留的隔离空间、维持注意力机制数值稳定的泄压通路、支撑多步推理的计算骨架、为后续适配预留的可塑性储备，这些冗余参数的四重作用，没有一个会在传统基准测试的分数上显现。我们手中的测试尺子，只能测量高频、主流、单步可检索的能力，而Scaling Law的边际收益，恰恰流向了尺子无法触及的地方。

那条光滑的幂律曲线背后，从来没有什么免费的冗余。

你的AIGC知识价值，正在被看见！塔猴AI达人星火计划，发布课程，赢现金激励！点击加入活动：https://www.tahou.com/article/206587263682970629

AI生成内容提示：本文由人工智能辅助创作，内容仅供参考，不代表平台观点。请注意核实信息的准确性，并理性判断。

以上内容不代表本平台立场，仅供读者参考