大语言模型ILP现象：SFT失败的五大根因与解决方案

2026-07-03 16:36:08

文章摘要

文章基于不完全学习现象（ILP），梳理监督微调（SFT）领域未来研究方向。包括挖掘未知根因、优化检测方法、细化归因框架、分析根因交互、泛化ILP框架、精细化CPT研究及推动行业应用标准化等，还给出不同群体建议和未来研究议程。

每一篇开辟新研究领域的学术论文，都会引出一系列待解答的问题。本文基于不完全学习现象（ILP，Incomplete Learning Phenomenon），梳理并展望监督微调（SFT）领域的未来研究方向，内容既来自顶会联合研究论文的核心发现，也基于该研究框架延伸推导而来。

论文标题: Why Supervised Fine-Tuning Fails to Learn: A Systematic Study of Incomplete Learning in Large Language Models

arXiv 链接: https://arxiv.org/abs/2604.10079

第一类研究方向：挖掘未被覆盖的未知根因

研究发现，约3%的未学习样本无法被已有的五大根因框架覆盖，这类样本具备以下特征：基础模型在零样本场景下表现正常（准确率超过25%）、监督微调的标注标签准确、训练集中不存在相似度Sim>0.85的矛盾样本对、在训练序列中的位置随机、损失曲线平稳收敛。尽管所有已知的归因指标都显示正常，但模型依然未能学会该样本。

针对这类样本，目前有几种潜在的解释方向：

样本本身的内在难度过高：问题表述过于复杂，模型虽具备相关知识却无法准确理解问题本身
缺少必要的多步推理流程：样本需要多步逻辑推导，但基础模型在推理链的中间环节就出现了错误
语义漂移现象：训练集标注内容与预训练阶段的知识在语义上不完全匹配，但又未达到明显的冲突程度
解码策略的固有缺陷：部分样本的正确答案在解码空间中的概率分布较为平坦，与采样温度参数相互作用后导致结果不稳定

研究价值：如果能找到这类样本的新根因，ILP框架的归因覆盖率将从当前的97%提升至接近100%，更重要的是，新的根因发现可能会揭示SFT目前尚未被认知的深层限制。

实操建议：对于实际项目而言，建议单独标注和追踪这3%的“疑难杂症”样本，它们或许会成为下一个根因发现的重要线索。

第二类研究方向：优化检测方法，从多项选择到自由文本格式

当前主流的检测方法是MC转换结合pass@5采样，但这一方案并非最终的最优解，存在两个可优化的方向：

方向2a：自由文本的自动判分

MC转换的核心局限在于改变了任务的原始格式，尽管研究通过“训练-评估解耦”规避了这一影响，但能否直接在自由文本输出场景下实现pass@N检测仍是待解决的问题。判断自由文本输出是否等价于正确答案，目前有三种可行思路：

基于大模型的自动判分，例如使用高性能模型作为评判者
基于语义嵌入的相似度计算，例如通过Sentence-BERT计算余弦相似度
基于信息覆盖度的判定，即检查输出内容是否覆盖了正确答案的所有关键信息

研究选择MC转换的原因是其能提供客观、可复现、跨模型可比的基准，如果自由文本判分方案能达到同样的客观性，将是检测方法的重要突破。

方向2b：动态调整采样温度

当前研究使用固定温度0.7进行pass@5采样，但不同样本对温度的敏感度存在差异：部分样本在低温下就能稳定输出正确结果，而另一些样本则需要更高的温度才能展现足够的多样性。因此，针对每个样本动态选择最优的检测温度，或是融合多种温度的采样结果，都是值得探索的改进方向。

第三类研究方向：深化归因框架，细化根因的子类别

当前的五大根因框架较为宽泛，部分根因可以进一步拆分细化：

根因I子类化：预训练知识缺失的分层研究

根因I“预训练知识缺失”目前是一个统一分类，但知识缺失实际存在不同层级：

完全缺失：预训练语料中完全不存在相关知识，研究中该类样本占比约8.2%
部分缺失：预训练语料中包含部分相关信息，但不足以形成完整的知识表征
边缘缺失：预训练语料中存在相关知识，但未覆盖SFT样本所在的具体子领域

不同层级的知识缺失，可能需要采用不同的CPT（上下文预训练）策略，例如是从零开始构建领域知识，还是在已有基础上进行精炼优化。

根因III细化：数据矛盾的类型区分

根因III“数据内部矛盾”的定义依赖于Sim>0.85的相似度阈值，但矛盾的具体类型存在差异：

标签矛盾：两个样本内容完全一致但标注标签不同
语义矛盾：样本内容相似但标注指向完全相反的结论
视角矛盾：样本从不同角度描述同一事物，标签看似不同但实际并不矛盾

需要注意的是，部分表面上的矛盾样本对实际上并不存在冲突，这类样本可能会被误归为根因III。

根因IV边界：位置效应的精细化定义

根因IV“左侧遗忘”目前关注训练序列的位置效应，但“位置”的定义可以进一步精细化：

绝对位置：样本在训练序列中的绝对序号，这是最简单的衡量方式
相对位置：样本在总训练序列长度中的占比，这也是当前研究使用的方式
上下文位置：与该样本语义相关的其他样本的相对位置，这种方式更复杂但可能更精准

如果通过语义嵌入定义“语义邻居”的位置，或许能发现根因IV的本质是“被相似语义的后续样本覆盖”，而非单纯的“处于训练序列前段”。

第四类研究方向：分析根因交互，处理多根因共存的场景

当前的研究多采用单根因归因，即每个未学习样本仅被归为一个根因，但在实际项目中，单个未学习样本可能同时涉及多个根因：

属于根因I的样本恰好处于训练序列的前段，就会同时触发根因I和根因IV
根因II的样本在训练集中存在矛盾样本对，就会同时涉及根因II和根因III
根因III的样本同时属于难样本，就会结合根因III和根因V

当前研究将所有样本归为“主导根因”，但“主导”的定义并不明确，我们无法区分哪些样本真的仅存在单一根因，哪些只是被归类到最显著的根因中。

如果后续研究证实多根因样本占比可观，就需要开发对应的多根因处理策略：

并行修复：同时针对所有涉及的根因执行优化方案
串行修复：按照根因优先级逐一修复并验证
组合策略：将多种方案结合，例如全局打乱数据、动态分桶训练、渐进式Epoch训练的组合

第五类研究方向：将ILP框架泛化到其他训练范式

该研究提出的“检测→归因→干预→验证”框架并非仅适用于SFT场景，还可以推广到多个训练场景中：

RLHF/DPO（基于人类反馈的强化学习/直接偏好优化）

检测：模型的偏好是否被真正内化？RLHF模型在偏好数据上的“通过率”是否也有ILP？
归因：偏好数据中的ILP根因是什么？预训练知识冲突是否也是RLHF中“奖励黑客”的原因？
干预：CPT是否也能解决RLHF中的未学习问题？

持续学习

检测：增量训练中，新数据是否被真正学会？旧知识是否被覆盖？
归因：增量学习中的遗忘是根因IV（位置）的变体吗？
干预：重采样策略是否也能用于持续学习的遗忘缓解？

多模态训练

检测：多模态模型中，“语言对齐→视觉理解”的转换中是否有ILP？
归因：未对齐的根因是视觉编码器知识缺失（根因I变体），还是文本冲突（根因II变体）？
干预：CPT在视觉语言模型中的模拟——对比学习是否需要“知识增强”？

第六类研究方向：精细化CPT相关研究

研究证实CPT对根因I和根因II的未学习问题有效，但CPT本身仍存在诸多待解决的问题：

CPT的数据选择问题

如何自动选择最优的CPT语料，需要平衡语料的相关性、质量和覆盖率
是否需要使用领域特异性语料，即对比通用语料和完全领域专属语料的效果差异
CPT语料的配比，即目标领域语料与通用语料的比例如何设置最优

CPT的训练策略

CPT的训练步数对最终效果和训练成本的影响，当前研究使用了5B token的训练量，但最优的训练步数仍需探索
CPT的学习率选择，学习率过低则无法产生有效效果，过高则会导致模型通用能力出现灾难性遗忘
CPT的早停策略，即如何确定停止CPT训练的时机，以最大化领域知识增量同时最小化通用能力的损失

减轻CPT的负面影响

如何减少CPT带来的MMLU基准性能下降，当前研究通过混合约15%的通用语料缓解了这一问题
需要针对不同的混合配比进行精细实验，例如探索10%、15%、20%、25%的通用语料配比的最优值
CPT后的“恢复训练”，即通过少量通用语料重新训练，是否能恢复模型的通用能力

第七类研究方向：推动ILP的行业应用与标准化

当前研究已展示了ILP检测的价值，但行业层面的标准仍未建立：

建立ILP检测的行业标准

需要建立统一的ILP检测流程，例如MC转换+pass@5是否应该成为SFT评估的标准组件
需要构建ILP的基准测试集，如同MMLU、HumanEval这类通用基准一样，让不同研究的成果可以进行公平对比

ILP与AI安全的交叉应用

未学习的样本是否也是“安全对齐未成功”的样本？如果模型对15%的样本未能学会，那么是否意味着15%的安全规则也未被有效对齐？
ILP检测可以作为“红队测试”的前置筛选步骤，先通过pass@5检测找出未对齐的样本，再进行人工红队测试，提升测试效率

降低ILP检测的门槛

当前的ILP检测需要使用高性能模型生成干扰项，且需要一定的计算资源，降低检测门槛也是重要的推进方向：

使用开源模型替代高性能模型进行干扰项生成
开发一键式的ILP检测工具
将ILP检测集成到主流的SFT训练框架中，让检测流程更易于落地

写在最后：ILP研究的“无穷远方”

这篇顶会论文关于ILP的发现并非研究的终点，而是全新研究方向的起点。它开启了“SFT病理学”这一全新研究领域：ILP是模型未学习的症状，五大根因是对应的病因，五种干预方案是治疗处方，而“检测→归因→干预→验证”则是完整的诊疗流程。

这一框架可以被推广到RLHF、DPO、多模态训练、持续学习等所有涉及“训练数据是否被有效学习”的场景，每一次推广都会带来新的科学问题。

对不同群体的建议

对于研究者：本文提到的每个研究方向都可以作为顶会论文的核心内容，例如挖掘未知根因、探索多根因交互机制、精细化CPT研究、将ILP框架推广到RLHF场景、优化自由文本检测方法等，任选一个方向深入挖掘都能产出有价值的研究成果。

对于工程师：最具工程落地价值的方向是ILP检测的标准化和CPT的精细化研究，将ILP检测集成到SFT训练框架中，就如同将单元测试集成到软件开发流程中一样，这可能是未来1-2年内SFT工程领域最重要的基础设施升级。

ILP的研究不仅仅是这一篇论文的发现，它更是整个后训练研究范式转变的起点，推动研究从“如何做得更好”转向“为什么没有做好”。

未来的研究议程

基于对ILP框架的完整理解，我们可以梳理出未来需要优先推进的研究方向：

Tier 1（高优先级，1-2年内有望突破）

挖掘并验证未知根因，针对研究中确认的3%未覆盖样本展开深入研究
探索自由文本pass@N检测方法，解决MC转换的局限性
开发ILP检测的标准化工具，实现检测流程的一键运行

Tier 2（中优先级，2-3年内有望突破）

研究多根因样本的联合归因与修复策略
精细化CPT的数据选择方案，实现自动寻找最优训练语料
将ILP框架推广到RLHF/DPO场景中

Tier 3（长期目标，3年以上）

探索ILP与AI安全的交叉研究，实现未对齐样本的自动检测
研究预训练阶段的ILP现象，探索大模型在预训练过程中的不完全学习问题
分析跨模态ILP，探索视觉语言对齐过程中的未学习现象

对研究社区的建议

ILP的出现推动SFT研究进入了新的阶段，为了推动该领域的发展，研究社区需要共同努力：

建立ILP的通用基准测试集，统一检测标准、归因标准和评估标准，让不同研究的成果可以公平比较
开发ILP的开源工具包，包含MC转换、pass@5检测、2x2归因矩阵、干预方案验证等模块
共享不同领域、不同模型、不同数据集下的根因分布数据，帮助社区建立更完整的ILP认知地图

这是一条全新的研究道路，但绝非终点。

塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台，致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴，你不仅可以学习众多AIGC类实战课程，获得与时俱进的AIGC技能和视野，还有机会获得长期商业合作和接单机会！点击进入：https://www.tahou.com/

AI生成内容提示：本文由人工智能辅助创作，内容仅供参考，不代表平台观点。请注意核实信息的准确性，并理性判断。

以上内容不代表本平台立场，仅供读者参考