英伟达提出GDPO算法,多奖励优化性能超越GRPO

2026-01-12 17:39:40

英伟达团队发布新论文,提出“组奖励解耦归一化策略优化”(GDPO),旨在解决DeepSeek-R1基础技术GRPO在多奖励优化场景下的缺陷。研究指出,GRPO会将不同奖励组合归一化为相同优势值,导致信号丢失和训练不稳定。

GDPO通过对每个奖励信号分别进行归一化,有效保留了奖励间的相对差异。实验数据显示,在工具调用、数学推理及代码推理任务中,GDPO在准确率、格式合规性及训练稳定性上均显著优于GRPO,且有效避免了“训练坍塌”现象。

原文链接

声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
模型优化
强化学习(RL)