导航菜单
切换主题

Continuous Batching

连续批处理是一种动态调度技术,在生成过程中持续添加新请求和移除已完成请求,最大化GPU利用率。调度策略:FCFS、优先级调度;批处理大小:动态调整;内存管理:KV Cache复用;吞吐量优化:请求合并;延迟控制:服务质量保证。