导航菜单

切换主题

Speculative Decoding

推测解码通过使用小型草稿模型(draft model)预测多个token，然后用目标模型并行验证，在不牺牲质量的前提下加速推理。草稿模型选择：小型模型的权衡；验证策略：接受/拒绝采样；加速比分析：理论vs实际；实现框架：Medusa、Eagle；应用场景：长文本生成加速。

资源类型

全部 📄 文章 🎬 视频 💻 代码 📚 官方文档 🤖 大模型官方

难度

全部入门进阶高级专家

学习资源(9 个)

百度千帆 - 推理加速方案

百度千帆推测解码配置

腾讯云TI - 推测解码最佳实践

腾讯云TI平台实践指南

商汤科技 - 大模型推理加速

商汤推测解码技术分享

InfoQ - 大模型推理优化技术

InfoQ技术文章

阿里达摩院 - 推理加速研究

达摩院研究成果

Google DeepMind - Speculative Decoding Paper

DeepMind推测解码论文

vLLM - Speculative Decoding Support

vLLM推测解码文档

OpenAI - Inference Speedup Techniques

OpenAI推理优化指南

SpecTr: Speculative Decoding Research

SpecTr推测解码论文