导航菜单
切换主题

GPTQ/AWQ

GPTQ和AWQ是两种主流的大语言模型量化方法,GPTQ基于二阶信息,AWQ基于激活感知,各有优势。GPTQ原理:最优量化步长;AWQ原理:激活感知权重;量化对比:精度、速度;实现工具:AutoGPTQ、AWQ;部署实践:vLLM集成。