模型微调模块:基础概念、监督微调SFT、强化学习RLHF/RLAIF、参数高效微调PEFT
基础概念分支:微调基础概念、预训练与微调对比、迁移学习、领域适应、微调应用场景
监督微调SFT分支:SFT概述、数据准备、指令微调、高质量数据策展、训练流程、评估方法
强化学习RLHF/RLAIF分支:RLHF基础概念、奖励模型、PPO算法、DPO、RLAIF、最佳实践
参数高效微调PEFT分支:PEFT概述、LoRA、QLoRA、适配器方法、前缀微调