KV Cache

KV Cache（Key-Value Cache）是大语言模型推理中的关键技术，通过缓存注意力机制中的Key和Value矩阵，避免重复计算，显著提升推理效率。KV Cache原理：前向传播中的缓存复用；内存管理：PagedAttention分页管理；缓存策略：前缀缓存、滑动窗口；性能优化：缓存预取、内存池；多轮对话：缓存复用策略。