监督微调 SFT

监督微调SFT分支：SFT概述、数据准备、指令微调、高质量数据策展、训练流程、评估方法

知识点(6 个)

SFT概述

全面理解监督微调的核心概念、流程和方法，掌握SFT在LLM对齐中的关键作用。SFT定义：使用标注数据对预训练模型进行监督训练；SFT目标：让模型学会遵循指令、输出期望格式；SFT与预训练区别：数据量、学习目标、训练方式；SFT数据类型：指令数据、对话数据、任务数据；SFT发展阶段：传统微调 → 指令微调 → 对齐微调。

点击查看详细资源列表

SFT数据准备

7 资源

掌握SFT数据准备的核心技术，包括数据收集、清洗、格式化和质量控制。数据收集策略：人工标注、数据合成、数据增强；数据格式要求：指令-回复格式、对话格式、多轮对话；数据清洗技术：去重、过滤、去噪、平衡；数据质量评估：多样性、准确性、一致性；数据配比策略：任务类型、难度级别、领域分布。

点击查看详细资源列表

指令微调

10 资源

深入理解指令微调的核心技术和方法，掌握让模型学会遵循指令的关键技术。指令微调定义：训练模型理解和执行自然语言指令；指令格式设计：任务描述、输入、输出格式；指令类型：单任务、多任务、通用指令；指令多样性：任务类型、领域、难度覆盖；指令模板：零样本、少样本、思维链。

点击查看详细资源列表

高质量数据策展

10 资源

掌握高质量数据策展的核心方法，理解数据质量对微调效果的关键影响。数据质量维度：准确性、一致性、多样性、代表性；质量评估方法：自动化评估、人工审核、模型评估；数据筛选策略：难度过滤、去重、多样性采样；数据增强技术：回译、改写、合成数据；数据集版本控制：迭代优化、A/B测试。

点击查看详细资源列表

SFT训练流程

4 资源

掌握SFT训练的完整流程，从环境搭建到模型训练的端到端实现。环境配置：GPU、框架、依赖库；数据加载：数据格式、批处理、数据加载器；模型配置：基座模型选择、参数设置；训练策略：学习率、批次大小、训练轮数；监控与调试：损失曲线、验证指标、日志记录。

点击查看详细资源列表

SFT评估方法

9 资源

掌握SFT模型的评估方法和指标，确保微调效果达到预期目标。评估指标：困惑度、准确率、BLEU、ROUGE；能力评估：指令遵循、推理、知识、安全；自动评估方法：基准测试、模型打分；人工评估方法：人类偏好、专家评审；常见评估基准：MMLU、HellaSwag、TruthfulQA。

点击查看详细资源列表