DPO直接偏好优化

掌握直接偏好优化算法，理解DPO如何简化传统RLHF流程。DPO原理：绕过奖励模型的偏好优化；DPO损失函数：偏好分类损失；DPO vs PPO：简化流程、稳定训练；DPO实现细节：数据格式、超参数；DPO扩展：IPO、KTO、ORPO。