GPTQ和AWQ是两种主流的大语言模型量化方法,GPTQ基于二阶信息,AWQ基于激活感知,各有优势。GPTQ原理:最优量化步长;AWQ原理:激活感知权重;量化对比:精度、速度;实现工具:AutoGPTQ、AWQ;部署实践:vLLM集成。
GPTQ INT4论文
AWQ原始论文