导航菜单
切换主题

RLHF基础概念

深入理解基于人类反馈的强化学习核心原理,掌握RLHF在LLM对齐中的关键作用。RLHF定义:使用人类偏好信号训练语言模型;RLHF三阶段流程:SFT → RM → PPO;人类偏好数据:比较数据、偏好标注;对齐目标:有用性、无害性、诚实性;RLHF优势与局限:可控性 vs 复杂度。

学习资源(0 个)

📭

没有符合筛选条件的资源