Speculative Decoding
推测解码通过使用小型草稿模型(draft model)预测多个token,然后用目标模型并行验证,在不牺牲质量的前提下加速推理。草稿模型选择:小型模型的权衡;验证策略:接受/拒绝采样;加速比分析:理论vs实际;实现框架:Medusa、Eagle;应用场景:长文本生成加速。
学习资源(9 个)
📎
百度千帆 - 推理加速方案
百度千帆推测解码配置
进阶
📎
腾讯云TI - 推测解码最佳实践
腾讯云TI平台实践指南
进阶
📎
商汤科技 - 大模型推理加速
商汤推测解码技术分享
高级
📎
InfoQ - 大模型推理优化技术
InfoQ技术文章
进阶
📎
阿里达摩院 - 推理加速研究
达摩院研究成果
高级
📎
Google DeepMind - Speculative Decoding Paper
DeepMind推测解码论文
高级
📎
vLLM - Speculative Decoding Support
vLLM推测解码文档
进阶
📎
OpenAI - Inference Speedup Techniques
OpenAI推理优化指南
进阶
📎
SpecTr: Speculative Decoding Research
SpecTr推测解码论文
高级