导航菜单

切换主题

DPO直接偏好优化

掌握直接偏好优化算法，理解DPO如何简化传统RLHF流程。DPO原理：绕过奖励模型的偏好优化；DPO损失函数：偏好分类损失；DPO vs PPO：简化流程、稳定训练；DPO实现细节：数据格式、超参数；DPO扩展：IPO、KTO、ORPO。

资源类型

全部 📄 文章 🎬 视频 💻 代码 📚 官方文档 🤖 大模型官方

难度

全部入门进阶高级专家

学习资源(8 个)

边缘部署实践

51CTO 边缘部署

DPO Paper

DPO原始论文

DPO vs PPO Comparison

DPO vs PPO论文

IPO Paper

IPO论文

KTO Paper

KTO论文

ORPO Paper

ORPO论文

DPO论文解读

掘金DPO解读

ORPO最新进展

InfoQ ORPO