英伟达提出GDPO算法,多奖励优化性能超越GRPO
模型优化
强化学习(RL)
英伟达团队发布新论文,提出“组奖励解耦归一化策略优化”(GDPO),旨在解决DeepSeek-R1基础技术GRPO在多奖励优化场景下的缺陷。研究指出,GRPO会将不同奖励组合归一化为相同优势值,导致信号丢失和训练不稳定。
GDPO通过对每个奖励信号分别进行归一化,有效保留了奖励间的相对差异。实验数据显示,在工具调用、数学推理及代码推理任务中,GDPO在准确率、格式合规性及训练稳定性上均显著优于GRPO,且有效避免了“训练坍塌”现象。
以上内容不代表本平台立场,仅供读者参考


