导航菜单
切换主题

知识蒸馏

知识蒸馏分支:蒸馏概述、Teacher-Student、蒸馏方法、LLM蒸馏、实践案例

知识点(5 个)

蒸馏概述

7 资源

知识蒸馏是一种模型压缩技术,通过让小模型(学生模型)学习大模型(教师模型)的知识,实现模型压缩和加速。蒸馏原理:知识迁移机制;蒸馏类型:响应、特征、关系;优势分析:压缩与加速;应用场景:边缘部署优化;发展趋势:自蒸馏、多教师蒸馏。

点击查看详细资源列表

Teacher-Student

13 资源

Teacher-Student架构是知识蒸馏的基础框架,教师模型提供软标签(soft labels)作为额外监督信号,帮助学生模型学习。教师模型选择:大模型选型;学生模型设计:架构优化;软标签生成:温度调节;损失函数设计:KL散度;训练策略:同步vs异步。

点击查看详细资源列表

蒸馏方法

14 资源

蒸馏方法包括响应蒸馏(Response-based)、特征蒸馏(Feature-based)和关系蒸馏(Relation-based)等多种技术路线。响应蒸馏:软标签迁移;特征蒸馏:中间层匹配;关系蒸馏:样本关系保持;多教师蒸馏:集成知识迁移;自蒸馏:同构知识压缩。

点击查看详细资源列表

LLM蒸馏

12 资源

大语言模型蒸馏关注如何将大型LLM的知识迁移到小型LLM,包括Token-level蒸馏、Sequence-level蒸馏等技术。LLM蒸馏特点:生成式任务挑战;Token级蒸馏:输出分布匹配;Sequence级蒸馏:整体序列学习;数据增强:教师模型生成数据;典型案例:DistilBERT、TinyBERT。

点击查看详细资源列表

实践案例

6 资源

实践案例展示知识蒸馏在真实场景中的应用,包括蒸馏流程、参数调优、性能评估等。蒸馏流程:端到端pipeline;参数调优:温度、权重平衡;性能评估:精度、速度、大小;部署实践:生产环境迁移;常见问题:解决方案汇总。

点击查看详细资源列表