导航菜单
切换主题

DPO直接偏好优化

掌握直接偏好优化算法,理解DPO如何简化传统RLHF流程。DPO原理:绕过奖励模型的偏好优化;DPO损失函数:偏好分类损失;DPO vs PPO:简化流程、稳定训练;DPO实现细节:数据格式、超参数;DPO扩展:IPO、KTO、ORPO。

学习资源(0 个)

📭

没有符合筛选条件的资源