知识蒸馏
知识蒸馏分支:蒸馏概述、Teacher-Student、蒸馏方法、LLM蒸馏、实践案例
知识点(5 个)
蒸馏概述
7 资源知识蒸馏是一种模型压缩技术,通过让小模型(学生模型)学习大模型(教师模型)的知识,实现模型压缩和加速。蒸馏原理:知识迁移机制;蒸馏类型:响应、特征、关系;优势分析:压缩与加速;应用场景:边缘部署优化;发展趋势:自蒸馏、多教师蒸馏。
点击查看详细资源列表
Teacher-Student
13 资源Teacher-Student架构是知识蒸馏的基础框架,教师模型提供软标签(soft labels)作为额外监督信号,帮助学生模型学习。教师模型选择:大模型选型;学生模型设计:架构优化;软标签生成:温度调节;损失函数设计:KL散度;训练策略:同步vs异步。
点击查看详细资源列表
蒸馏方法
14 资源蒸馏方法包括响应蒸馏(Response-based)、特征蒸馏(Feature-based)和关系蒸馏(Relation-based)等多种技术路线。响应蒸馏:软标签迁移;特征蒸馏:中间层匹配;关系蒸馏:样本关系保持;多教师蒸馏:集成知识迁移;自蒸馏:同构知识压缩。
点击查看详细资源列表
LLM蒸馏
12 资源大语言模型蒸馏关注如何将大型LLM的知识迁移到小型LLM,包括Token-level蒸馏、Sequence-level蒸馏等技术。LLM蒸馏特点:生成式任务挑战;Token级蒸馏:输出分布匹配;Sequence级蒸馏:整体序列学习;数据增强:教师模型生成数据;典型案例:DistilBERT、TinyBERT。
点击查看详细资源列表
实践案例
6 资源实践案例展示知识蒸馏在真实场景中的应用,包括蒸馏流程、参数调优、性能评估等。蒸馏流程:端到端pipeline;参数调优:温度、权重平衡;性能评估:精度、速度、大小;部署实践:生产环境迁移;常见问题:解决方案汇总。
点击查看详细资源列表