Teacher-Student
Teacher-Student架构是知识蒸馏的基础框架,教师模型提供软标签(soft labels)作为额外监督信号,帮助学生模型学习。教师模型选择:大模型选型;学生模型设计:架构优化;软标签生成:温度调节;损失函数设计:KL散度;训练策略:同步vs异步。
学习资源(13 个)
📎
腾讯云TI - 推测解码最佳实践
腾讯云TI平台实践指南
进阶
📎
百度千帆 - 动态批处理实践
百度千帆连续批处理配置
进阶
📎
CSDN - 教师学生模型实现
实现教程
进阶
📎
飞桨Paddle - 蒸馏架构
飞桨蒸馏API
进阶
📎
SegmentFault - 蒸馏架构实战
架构实战
进阶
📎
掘金 - Teacher-Student最佳实践
最佳实践
进阶
📎
FitNets - Hints for Thin Deep Nets
FitNets论文
高级
📎
Attention Transfer
注意力迁移论文
高级
📎
Born-Again Neural Networks
BANN论文
高级
📎
Deep Mutual Learning
深度互学习论文
高级
📎
Relational Knowledge Distillation
关系蒸馏论文
高级
📎
Contrastive Representation Distillation
对比蒸馏论文
高级
📎
Noisy Student - Self-Training
Noisy Student论文
高级