英伟达提出GDPO算法，多奖励优化性能超越GRPO

2026-01-12 17:15:10

模型优化

强化学习（RL）

英伟达团队发布新论文，提出“组奖励解耦归一化策略优化”（GDPO），旨在解决DeepSeek-R1基础技术GRPO在多奖励优化场景下的缺陷。研究指出，GRPO会将不同奖励组合归一化为相同优势值，导致信号丢失和训练不稳定。

GDPO通过对每个奖励信号分别进行归一化，有效保留了奖励间的相对差异。实验数据显示，在工具调用、数学推理及代码推理任务中，GDPO在准确率、格式合规性及训练稳定性上均显著优于GRPO，且有效避免了“训练坍塌”现象。

以上内容不代表本平台立场，仅供读者参考