GPTQ和AWQ是两种主流的大语言模型量化方法,GPTQ基于二阶信息,AWQ基于激活感知,各有优势。GPTQ原理:最优量化步长;AWQ原理:激活感知权重;量化对比:精度、速度;实现工具:AutoGPTQ、AWQ;部署实践:vLLM集成。
百度千帆AWQ实践
腾讯云GPTQ部署
GPTQ实战指南
AWQ详解
vLLM量化支持