导航菜单

切换主题

奖励模型

掌握奖励模型训练的核心技术，理解如何将人类偏好转化为可学习的奖励信号。奖励模型定义：学习人类偏好的评分函数；偏好数据收集：成对比较、排序、评分；Bradley-Terry模型：偏好概率建模；RM训练目标：最大化偏好正确率；RM质量问题：过度优化、分布偏移。

资源类型

全部 📄 文章 🎬 视频 💻 代码 📚 官方文档 🤖 大模型官方

难度

全部入门进阶高级专家

学习资源(2 个)

偏好数据收集方法

掘金偏好数据

奖励模型评估方法

InfoQ RM评估