知识蒸馏

知识蒸馏分支：蒸馏概述、Teacher-Student、蒸馏方法、LLM蒸馏、实践案例

知识点(5 个)

蒸馏概述

知识蒸馏是一种模型压缩技术，通过让小模型（学生模型）学习大模型（教师模型）的知识，实现模型压缩和加速。蒸馏原理：知识迁移机制；蒸馏类型：响应、特征、关系；优势分析：压缩与加速；应用场景：边缘部署优化；发展趋势：自蒸馏、多教师蒸馏。

点击查看详细资源列表

Teacher-Student

Teacher-Student架构是知识蒸馏的基础框架，教师模型提供软标签（soft labels）作为额外监督信号，帮助学生模型学习。教师模型选择：大模型选型；学生模型设计：架构优化；软标签生成：温度调节；损失函数设计：KL散度；训练策略：同步vs异步。

点击查看详细资源列表

蒸馏方法

14 资源

蒸馏方法包括响应蒸馏（Response-based）、特征蒸馏（Feature-based）和关系蒸馏（Relation-based）等多种技术路线。响应蒸馏：软标签迁移；特征蒸馏：中间层匹配；关系蒸馏：样本关系保持；多教师蒸馏：集成知识迁移；自蒸馏：同构知识压缩。

点击查看详细资源列表

LLM蒸馏

12 资源

大语言模型蒸馏关注如何将大型LLM的知识迁移到小型LLM，包括Token-level蒸馏、Sequence-level蒸馏等技术。LLM蒸馏特点：生成式任务挑战；Token级蒸馏：输出分布匹配；Sequence级蒸馏：整体序列学习；数据增强：教师模型生成数据；典型案例：DistilBERT、TinyBERT。

点击查看详细资源列表

实践案例

6 资源

实践案例展示知识蒸馏在真实场景中的应用，包括蒸馏流程、参数调优、性能评估等。蒸馏流程：端到端pipeline；参数调优：温度、权重平衡；性能评估：精度、速度、大小；部署实践：生产环境迁移；常见问题：解决方案汇总。

点击查看详细资源列表