导航菜单
切换主题

奖励模型

掌握奖励模型训练的核心技术,理解如何将人类偏好转化为可学习的奖励信号。奖励模型定义:学习人类偏好的评分函数;偏好数据收集:成对比较、排序、评分;Bradley-Terry模型:偏好概率建模;RM训练目标:最大化偏好正确率;RM质量问题:过度优化、分布偏移。