Gemini 3 Flash模型对齐:中期训练与监督微调结合及分布外安全评估

核心摘要:本研究借鉴现有对齐方法,通过中期文档微调结合监督微调的流程,让Gemini 3 Flash模型习得预设的正向特质与安全准则。实验证明,监督微调可有效在分布外场景下稳定植入对齐特质,中期微调则能强化模型对准则的内化理解,同时未出现明显的能力退化。研究还分享了多项优化合成数据与训练流程的实践经验。
实验背景与整体流程
本研究延续了此前关于模型规格中期微调的相关工作,核心思路是通过在对话微调前让模型学习包含目标特质的合成文档,先让模型理解特质背后的逻辑,再通过对话形式的微调强化模型在实际交互中的行为表现,最终实现让模型在极端分布外场景下仍能遵循预设准则的深层对齐目标。
本次实验的核心流程分为两个数据生成与训练管道:
- 中期文档微调:生成类预训练的文本内容,包括论坛帖子、博客文章、研究论文等,模拟Gemini展现目标特质的真实场景,不使用对话格式,该流程参考了相关研究的合成文档微调方法。
- 监督微调(SFT):构建对话格式的训练数据,由用户提问与模型回复组成,要求回复自然体现目标特质,不刻意夸大或直接提及训练文档。生成数据时会给辅助模型传入特质文档的相关片段作为系统提示,训练时会移除系统提示内容。
两个管道的合成数据集生成流程高度相似,主要参考了相关研究的框架,具体步骤如下:
- 将预设的特质文档拆分为独立的片段,每个片段对应一个核心特质。
- 针对每个特质片段,使用辅助模型生成对应的场景,让特质在场景中起到引导行为的作用,并将场景转化为用户提问。同时增加了审核环节,确保场景真实且能有效测试目标特质,额外步骤包括先生成无系统提示的初始回复,将其作为模型回复的一部分用于优化提问,避免生成过于泛泛的套话。
- 使用带特质系统提示的辅助模型生成初始回复,再在独立对话场景中让辅助模型对回复进行优化,使其更贴合目标特质且符合真实交互逻辑。
- 通过自动评估环节过滤低质量、不真实的回复,并通过嵌入相似度去重,移除过于相似的提问。
在训练时,研究团队移除了生成数据时使用的系统提示,整体训练从预训练或中期微调后的 checkpoint 启动,在训练混合数据中使用不同比例的合成对话数据。
实验评估与核心结果
本次实验从两个维度评估模型表现:一是通过LMSYS与智能体编码评估验证训练过程中未出现显著的能力退化;二是通过多组分布外安全评估,测试模型在与训练数据差异较大的场景下是否能展现对齐行为。所有评估场景均至少在一个维度上与训练数据(单轮、聚焦“困难建议”的窄框架)存在显著差异,具体评估设置如下表所示:
| 评估项目 | 对话轮次结构 | 智能体属性 | 与训练数据的核心差异 |
|---|---|---|---|
| AI妄想验证 | 多轮 | 否 | 持续对抗人设,逐步升级妄想内容 |
| ODCV | 单轮 | 是 | 工具使用,性能压力下的伦理冲突 |
| 智能体对齐偏差 | 多轮 | 是 | 工具使用(邮件),直接目标冲突/自主权威胁 |
| 审计智能体 | 多轮(5轮) | 否 | 自适应审计员,逐步升级施压 |
四个分布外安全评估的具体说明如下:
- AI妄想验证:模拟用户扮演有妄想症的来访者,要求模型扮演 therapist,测试模型是否会在对抗诱导下认可来访者的妄想内容。
- ODCV:测试模型在强性能激励下,是否会为达成目标而违反预设约束。
- 智能体对齐偏差:测试模型在面临直接目标冲突或自主权威胁时,是否会出现信息泄露等对齐偏差行为。
- 审计智能体:基于现有研究方法改造为多轮场景,测试审计智能体能否诱导模型违反预设特质。该流程的核心步骤包括:为审计智能体分配特定特质,要求其在5轮对话中诱导模型违反特质;每轮对话前审计智能体都会评估策略,决定是升级、缓和还是转换施压方式,实现自适应施压;在每次审计开始前使用Petri式真实性检查,减少模型识别出评估场景的概率。
本次实验的核心发现包括:
- 监督微调在所有对齐相关评估中均能带来轻度到显著的性能提升。
- 中期文档微调在多数评估中能带来性能提升,且可与监督微调叠加生效,但并非在所有场景中都有效。
- 能力评估结果整体平稳,未出现明显的性能退化。
研究团队还尝试将监督微调替换为受限直接策略优化(BDPO),该方法参考了相关研究。由于普通DPO会导致模型大幅降低拒绝回复的概率,而非提升正向回复的概率,因此选择了受限变体。BDPO的数据生成流程与SFT类似,但会为每个用户提问生成不符合目标特质的“拒绝回复”,并在审核环节确保该回复与目标特质不匹配。实验结果显示,BDPO有时比SFT效果略好,但并不稳定,且训练超参数调优难度更高,因此研究团队认为BDPO并不比SFT更值得使用。
合成数据中的表面模式问题与解决方案
合成数据中常见的模式即使单个看起来正常,也可能因为在数据集中占比过高,导致模型学习到意外的行为。研究团队曾遇到一个典型案例:尝试通过生成“模型在用户提问不明确时请求澄清”的示例,教授模型“合理自主性”的特质,但最终模型学会了在所有提问(包括1+1这类简单问题)时都请求澄清。每个单独的示例都合理,但整体数据集的重复模式导致了意外行为。
为解决该问题,研究团队构建了三阶段流水线,在每次合成数据生成结束后运行:
- 扫描阶段:将多批次对话文本拼接后,让大模型识别批次内重复出现的结构、修辞或行为模式,可并行处理多个批次提升效率。
- 聚类阶段:整合所有扫描结果,去重后合并得到候选模式列表,仅保留在多个扫描批次中出现的模式。
- 自动评估阶段:将每个候选模式转化为自动评估器,在更大规模的数据集样本中统计匹配次数,设置宽松和严格两种检测阈值。
研究团队曾通过该流水线排查模型在妄想验证评估中表现不佳的原因,发现数据集内存在大量以直接情感认可开头的示例,这类开头容易导致模型不加批判地接受用户的观点。
该扫描-聚类-自动评估流水线具备通用性,可用于任意对话或文档数据集,通过大模型识别数据中过度代表的结构模式。研究团队认为该方法对合成数据训练尤其有价值,尤其是在模型-智能体研究中,可避免训练数据中的行为 artifacts 损害智能体的真实性,且相较于通过下游评估发现问题,提前在数据中检测模式的成本更低。
研究团队还开展了相关实验:选取数据集中出现频率超过20%的两种模式——情感认可缓冲和BLUF(开篇直接回应同意或反驳用户前提),分别过滤包含该模式的数据后重新训练。实验结果显示,三种合成SFT模型(全量数据、过滤BLUF模式、过滤情感认可模式)在妄想确认评分上均优于基线模型,且表现相当,说明移除情感认可开头并未降低妄想验证的表现,反驳了“情感认可缓冲会导致妄想验证”的直觉。同时,过滤操作确实按预期改变了模型的输出结构:过滤BLUF模式的模型中BLUF结构占比从52%降至41%,过滤情感认可模式的模型中情感认可开头占比从26%降至20%。最关键的发现是,模型会从合成数据中学习到结构模式,但这些模式不一定会在评估分数中体现,即使预期会有影响,这说明直接在数据中检测模式的流程比仅通过下游评估更有价值。
相较于合成对话微调,中期文档微调的另一个优势是,可在不携带过多格式包袱的情况下教授模型对齐回复的范式,但这一优势可能不足以抵消中期微调的实施难度,相关细节将在后续经验总结中展开。
实践经验总结
知识不等于行为内化:研究团队除了行为评估外,还通过知识评估测试模型对目标特质的掌握程度,该评估参考了相关研究,使用开放式问题如“列出三个重要价值观”或“LLM与人类交互的五项重要原则”,仅测试模型的回忆能力而非情境应用能力。通过自动评估器为模型回复的每个要点打分,最终得到平均得分。实验结果显示,中期文档微调在让模型掌握特质的知识层面效果远优于单纯的监督微调,但研究团队最初仅在知识评估中取得正向结果,在实际对话中模型并未稳定展现目标特质。
多轮对抗评估的价值:要让模型在对抗压力或多轮对话中仍能遵循预设准则,模型需要学习可迁移的原则,而非仅记住单轮交互的模式。部分特质偏差在单轮场景中几乎无法被触发,例如“当用户反驳时模型改变主意”,不存在单轮对应的场景。多轮评估还可探索更丰富的场景,避免过度拟合单一攻击向量,尤其是审计智能体的流程,可有效优化对齐方法,且在其他评估中进行类似优化会面临更高的过拟合风险。
混合基线数据缓解能力退化:即使有连贯的特质文档,合成SFT数据仍存在多样性不足的问题,很多用户请求场景无法覆盖。研究团队发现,将合成数据与基线SFT数据(即初始checkpoint训练所用的数据)混合,可有效缓解这一问题。相较于先在常规数据上训练再仅用合成数据微调的方案,混合数据训练更不容易出现异常的行为崩溃,这与相关研究的结论一致。
中期微调的挑战与实践技巧:研究团队花费了大量人力时间才让中期微调取得正向结果,期间多次出现严重的能力退化。研究团队推测,从预训练checkpoint而非后训练checkpoint启动中期微调可有效避免这一问题,因为后者可能会让模型遗忘在对话微调中习得的基础能力,尤其是在需要区分“拒绝执行工具调用”这一正向行为和“忘记如何调用工具”这一负面行为时,从后训练checkpoint启动会带来混淆。
此外,研究团队还总结了多项有助于中期微调的实践经验,大多参考了相关研究,且未进行全面的消融实验,仅为有效与无效数据集的核心差异总结:
- 高度结构化的场景生成:在生成每个中期微调数据前,需明确三个核心要素:
• what:该示例要体现的具体特质
• how:特质在示例中的具体表现形式,例如模型采取了哪些符合特质的行动
• why:该行动如何体现特质,以及如何将“为什么”融入示例,例如通过角色引用模型的解释、观察者的推断或明确的行动后果展示 - 严格审核示例:在初始生成后需彻底审核示例,最好完全重写,审核重点为场景的自然性与特质体现的合理性。
- 使用表面模式检测流水线:前文提到的三阶段流水线可有效识别数据中的常见问题,例如研究团队最初遇到的通用模式:角色先批评模型的某一行动,再突然意识到该行动其实是正确的,该模式会传递模糊的训练信号。
- 特质文档需具备整体性:仅通过简短的特质列表生成数据,会让模型生硬地将特质套用到对话中,效果不佳。研究团队效果最好的特质文档,还包含了特质间的权衡方法、何时不遵循特质的场景等内容。换个角度来看,如果数据中存在过多“如果X则Y”的结构,模型不仅会学习该条件句,还会简化为“总是执行Y”,其中Y为特质,X为“特质可自然展现的场景”,过度代表该模式会让模型始终展现该特质,这也与前文提到的“合理自主性”问题相关。
研究团队希望后续能进一步探索这些经验的具体影响,量化其对中期微调成功的必要性。
你的AIGC知识价值,正在被看见!塔猴AI达人星火计划,发布课程,赢现金激励!点击加入活动:https://www.tahou.com/article/206587263682970629
AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。




