Speculative Decoding
推测解码通过使用小型草稿模型(draft model)预测多个token,然后用目标模型并行验证,在不牺牲质量的前提下加速推理。草稿模型选择:小型模型的权衡;验证策略:接受/拒绝采样;加速比分析:理论vs实际;实现框架:Medusa、Eagle;应用场景:长文本生成加速。
推测解码通过使用小型草稿模型(draft model)预测多个token,然后用目标模型并行验证,在不牺牲质量的前提下加速推理。草稿模型选择:小型模型的权衡;验证策略:接受/拒绝采样;加速比分析:理论vs实际;实现框架:Medusa、Eagle;应用场景:长文本生成加速。