导航菜单

切换主题

Speculative Decoding

推测解码通过使用小型草稿模型(draft model)预测多个token，然后用目标模型并行验证，在不牺牲质量的前提下加速推理。草稿模型选择：小型模型的权衡；验证策略：接受/拒绝采样；加速比分析：理论vs实际；实现框架：Medusa、Eagle；应用场景：长文本生成加速。

资源类型

全部 📄 文章 🎬 视频 💻 代码 📚 官方文档 🤖 大模型官方

难度

全部入门进阶高级专家

学习资源(5 个)

百度千帆 - 推理加速方案

百度千帆推测解码配置

腾讯云TI - 推测解码最佳实践

腾讯云TI平台实践指南

InfoQ - 大模型推理优化技术

InfoQ技术文章

vLLM - Speculative Decoding Support

vLLM推测解码文档

OpenAI - Inference Speedup Techniques

OpenAI推理优化指南