模型量化

模型量化分支：量化基础、INT8/INT4、GPTQ/AWQ、GGUF、量化实践

知识点(5 个)

量化是将模型从高精度表示（如FP32/FP16）转换为低精度表示（如INT8/INT4）的技术，可大幅减少模型大小和推理延迟。量化原理：精度与性能权衡；量化方法：PTQ、QAT；量化粒度：逐层、逐通道；校准策略：校准数据选择；精度评估：量化误差分析。

点击查看详细资源列表

INT8和INT4分别指8位和4位整数表示，是深度学习量化的主流精度选择，INT4可进一步压缩模型但精度损失更大。INT8量化：精度与性能平衡；INT4量化：极限压缩方案；混合精度：动态精度选择；精度恢复：量化感知训练；硬件支持：NPU/TPU加速。

点击查看详细资源列表

GPTQ和AWQ是两种主流的大语言模型量化方法，GPTQ基于二阶信息，AWQ基于激活感知，各有优势。GPTQ原理：最优量化步长；AWQ原理：激活感知权重；量化对比：精度、速度；实现工具：AutoGPTQ、AWQ；部署实践：vLLM集成。

点击查看详细资源列表

GGUF是llama.cpp项目推出的模型格式，专为CPU推理优化，支持多种量化级别（Q4_0, Q4_K_M, Q5_K_M等）。GGUF格式：文件结构解析；量化级别：Q4/Q5/Q6/Q8；量化选择：精度与大小权衡；工具链：llama.cpp、Ollama；本地部署：CPU推理优化。

点击查看详细资源列表

量化实践涵盖从模型选择、量化方法选择、校准数据准备到部署验证的完整流程。模型选择：量化友好架构；方法选择：PTQ vs QAT；校准数据：代表性数据集；部署验证：精度回归测试；性能优化：推理加速调优。

点击查看详细资源列表