导航菜单

切换主题

模型微调

模型微调模块：基础概念、监督微调SFT、强化学习RLHF/RLAIF、参数高效微调PEFT

学习分支(4 个)

基础概念

基础概念分支：微调基础概念、预训练与微调对比、迁移学习、领域适应、微调应用场景

监督微调 SFT

监督微调SFT分支：SFT概述、数据准备、指令微调、高质量数据策展、训练流程、评估方法

强化学习 RLHF/RLAIF

强化学习RLHF/RLAIF分支：RLHF基础概念、奖励模型、PPO算法、DPO、RLAIF、最佳实践

参数高效微调 PEFT

参数高效微调PEFT分支：PEFT概述、LoRA、QLoRA、适配器方法、前缀微调