推理优化

推理优化分支：KV Cache、Speculative Decoding、Continuous Batching、Flash Attention、vLLM、推理框架

知识点(6 个)

KV Cache

KV Cache（Key-Value Cache）是大语言模型推理中的关键技术，通过缓存注意力机制中的Key和Value矩阵，避免重复计算，显著提升推理效率。KV Cache原理：前向传播中的缓存复用；内存管理：PagedAttention分页管理；缓存策略：前缀缓存、滑动窗口；性能优化：缓存预取、内存池；多轮对话：缓存复用策略。

点击查看详细资源列表

Speculative Decoding

9 资源

推测解码通过使用小型草稿模型(draft model)预测多个token，然后用目标模型并行验证，在不牺牲质量的前提下加速推理。草稿模型选择：小型模型的权衡；验证策略：接受/拒绝采样；加速比分析：理论vs实际；实现框架：Medusa、Eagle；应用场景：长文本生成加速。

点击查看详细资源列表

Continuous Batching

6 资源

连续批处理是一种动态调度技术，在生成过程中持续添加新请求和移除已完成请求，最大化GPU利用率。调度策略：FCFS、优先级调度；批处理大小：动态调整；内存管理：KV Cache复用；吞吐量优化：请求合并；延迟控制：服务质量保证。

点击查看详细资源列表

Flash Attention

8 资源

Flash Attention通过分块计算和内存重排，将注意力计算的内存复杂度从O(n2)降低到O(n)，显著提升长序列处理效率。分块计算：Tiling策略；内存优化：减少HBM访问；实现细节：CUDA kernel；版本演进：Flash Attention 1/2/3；集成应用：主流框架支持。

点击查看详细资源列表

vLLM

10 资源

vLLM是一个高性能大语言模型推理和服务框架，核心创新是PagedAttention算法，实现高效的KV Cache内存管理。PagedAttention原理：分页内存管理；吞吐量优化：连续批处理；模型支持：主流开源LLM；部署方式：API服务、离线推理；性能调优：参数配置指南。

点击查看详细资源列表

推理框架

10 资源

大模型推理框架提供完整的模型加载、优化、服务和监控能力，主流框架包括TensorRT-LLM、vLLM、TGI等。框架对比：性能、功能、易用性；TensorRT-LLM：NVIDIA优化方案；TGI：Hugging Face推理服务；DeepSpeed-MII：微软推理框架；LMDeploy：国产推理方案。

点击查看详细资源列表