RLHF基础概念

深入理解基于人类反馈的强化学习核心原理，掌握RLHF在LLM对齐中的关键作用。RLHF定义：使用人类偏好信号训练语言模型；RLHF三阶段流程：SFT → RM → PPO；人类偏好数据：比较数据、偏好标注；对齐目标：有用性、无害性、诚实性；RLHF优势与局限：可控性 vs 复杂度。