监督微调 SFT
监督微调SFT分支:SFT概述、数据准备、指令微调、高质量数据策展、训练流程、评估方法
知识点(6 个)
SFT概述
8 资源全面理解监督微调的核心概念、流程和方法,掌握SFT在LLM对齐中的关键作用。SFT定义:使用标注数据对预训练模型进行监督训练;SFT目标:让模型学会遵循指令、输出期望格式;SFT与预训练区别:数据量、学习目标、训练方式;SFT数据类型:指令数据、对话数据、任务数据;SFT发展阶段:传统微调 → 指令微调 → 对齐微调。
点击查看详细资源列表
SFT数据准备
7 资源掌握SFT数据准备的核心技术,包括数据收集、清洗、格式化和质量控制。数据收集策略:人工标注、数据合成、数据增强;数据格式要求:指令-回复格式、对话格式、多轮对话;数据清洗技术:去重、过滤、去噪、平衡;数据质量评估:多样性、准确性、一致性;数据配比策略:任务类型、难度级别、领域分布。
点击查看详细资源列表
指令微调
10 资源深入理解指令微调的核心技术和方法,掌握让模型学会遵循指令的关键技术。指令微调定义:训练模型理解和执行自然语言指令;指令格式设计:任务描述、输入、输出格式;指令类型:单任务、多任务、通用指令;指令多样性:任务类型、领域、难度覆盖;指令模板:零样本、少样本、思维链。
点击查看详细资源列表
高质量数据策展
10 资源掌握高质量数据策展的核心方法,理解数据质量对微调效果的关键影响。数据质量维度:准确性、一致性、多样性、代表性;质量评估方法:自动化评估、人工审核、模型评估;数据筛选策略:难度过滤、去重、多样性采样;数据增强技术:回译、改写、合成数据;数据集版本控制:迭代优化、A/B测试。
点击查看详细资源列表
SFT训练流程
4 资源掌握SFT训练的完整流程,从环境搭建到模型训练的端到端实现。环境配置:GPU、框架、依赖库;数据加载:数据格式、批处理、数据加载器;模型配置:基座模型选择、参数设置;训练策略:学习率、批次大小、训练轮数;监控与调试:损失曲线、验证指标、日志记录。
点击查看详细资源列表
SFT评估方法
9 资源掌握SFT模型的评估方法和指标,确保微调效果达到预期目标。评估指标:困惑度、准确率、BLEU、ROUGE;能力评估:指令遵循、推理、知识、安全;自动评估方法:基准测试、模型打分;人工评估方法:人类偏好、专家评审;常见评估基准:MMLU、HellaSwag、TruthfulQA。
点击查看详细资源列表