高质量数据策展
掌握高质量数据策展的核心方法,理解数据质量对微调效果的关键影响。数据质量维度:准确性、一致性、多样性、代表性;质量评估方法:自动化评估、人工审核、模型评估;数据筛选策略:难度过滤、去重、多样性采样;数据增强技术:回译、改写、合成数据;数据集版本控制:迭代优化、A/B测试。
学习资源(10 个)
📎
LIMA: Less is More for Alignment
数据质量论文
高级
📎
Data Quality for LLM Training
数据质量论文
高级
📎
AlpaGasus: Quality Training
质量训练论文
高级
📎
Data Filtering for LLMs
数据过滤论文
高级
📎
WizardLM: Quality Instruction Data
WizardLM论文
高级
📎
Data Pruning for SFT
数据剪枝论文
高级
📎
LIMA论文解读
掘金LIMA解读
高级
📎
高质量指令数据构建
机器之心数据构建
高级
📎
WizardLM数据方法
51CTO WizardLM
高级
📎
SFT数据优化技巧
InfoQ数据优化
进阶