近端策略优化算法PPO(Proximal Policy Optimization)
PPO算法在openai的论文《Training language models to follow instructions with human feedback》提出的RLHF范式中使用,用于对其人类偏好。
PPO算法模型构成
其中,针对RLHF场景中的PPO算法一共存在四个模型:策略模型(policy model)、奖励模型(value model)、参考模型(reference model)以及critic模型。
- 策略模型:又称Actor,当前需要训练的“学生”模型,即目标的语言模型。接收用户输入的指令(prompt),生成对应的响应。通过与环境(即奖励模型)交互,学习优化生成策略,以最大化奖励信号。
- 奖励模型:“裁判”模型,评估生成内容的质量,对“指令-响应”进行评分,输出标量奖励指(如回答的有用性、无害性)。评分基于人类偏好数据巡林啊,例如人工标注的优质回答排序。参数冻结,不参与训练更新。提供优化方向,将模糊的“人类偏好”量化为可计算的奖励
- 参考模型:即SFT训练后得到的模型,将其作为“不变”的基准,防止策略偏离初始能力。约束公式为:最终奖励=奖励模型分-α×KL散度(α为惩罚系数)
- 批评家模型:动态的“评论家”,预测未来累积奖励。输入指令(状态),预测当前策略下未来能获得的总奖励期望值。用于计算优势函数(Advantage),衡量当前动作比平均表现好多少。与策略模型同步更新,通过最小化预测值与实际回报的均方误差(MSE)优化。减少奖励信号的方差,提升训练稳定性。

直接策略优化算法DPO(Directly Policy Optimization)
现有的大模型的对齐方法,例如PPO,往往程序复杂且稳定性不足,通常需要先你和一个能够反映人类偏好的奖励模型,然后通过强化学习来微调大模型,同时要确保模型行为不会过分偏离其原始状态。
相比之下,DPO算法简化该流程,无需训练专门的奖励模型,而是利用简单的分类损失来解决标准的PLHF(基于人类反馈的强化学习)问题。DPO不仅算法稳定、性能优良,而且计算量较小。

DPO算法仅包含RLHF中的两个模型,即演员模型(Actor model)和参考模型(Reference model),且训练过程中不需要进行数据采样。
组间相对策略优化算法GRPO(Group Relative Policy Optimization)
GRPO摒弃了价值函数模型的训练,二是通过组内奖励分数来评估基准线(advantage),大幅降低了训练资源的需求。GRPO首先根据问题q,生成一组回答(o1,...,oG),然后问题+回答输入Reference模型,并与Policy模型计算KL散度,约束Policy模型的更新幅度。此外,问题+回答输入Reward模型中输出一组奖励分数(r1,...,rG),与PPO显著不同的是,GRPO使用这一组奖励分数来估算A,具体公式为:


Comments NOTHING