量化基础
量化是将模型从高精度表示(如FP32/FP16)转换为低精度表示(如INT8/INT4)的技术,可大幅减少模型大小和推理延迟。量化原理:精度与性能权衡;量化方法:PTQ、QAT;量化粒度:逐层、逐通道;校准策略:校准数据选择;精度评估:量化误差分析。
量化是将模型从高精度表示(如FP32/FP16)转换为低精度表示(如INT8/INT4)的技术,可大幅减少模型大小和推理延迟。量化原理:精度与性能权衡;量化方法:PTQ、QAT;量化粒度:逐层、逐通道;校准策略:校准数据选择;精度评估:量化误差分析。