导航菜单

切换主题

PPO算法

深入理解近端策略优化算法在RLHF中的应用，掌握PPO训练的核心技术。PPO原理：策略梯度 + 重要性采样；PPO目标函数：裁剪目标、KL约束；PPO训练流程：采样、评估、更新；PPO超参数：裁剪参数、KL系数、学习率；PPO优化技巧：GAE、值函数裁剪。

资源类型

全部 📄 文章 🎬 视频 💻 代码 📚 官方文档 🤖 大模型官方

难度

全部入门进阶高级专家

学习资源(8 个)

协作界面设计

51CTO 协作界面设计

Scaling Reward Models

奖励模型扩展论文

PPO Paper

PPO原始论文

PPO Hyperparameters

PPO超参数论文

GAE (Generalized Advantage)

GAE论文

PPO在RLHF中的应用

掘金PPO应用

大模型PPO训练实战

机器之心PPO实战

KL散度约束实践

InfoQ KL约束