模型部署与优化模块:推理优化、模型量化、知识蒸馏、边缘部署
推理优化分支:KV Cache、Speculative Decoding、Continuous Batching、Flash Attention、vLLM、推理框架
模型量化分支:量化基础、INT8/INT4、GPTQ/AWQ、GGUF、量化实践
知识蒸馏分支:蒸馏概述、Teacher-Student、蒸馏方法、LLM蒸馏、实践案例
边缘部署分支:边缘部署概述、ONNX/TensorRT、移动端部署、WebAssembly/WebGPU、边缘优化、监控维护