DeepSpeed
训练框架训练框架开源36.0k Stars·MIT
DeepSpeed 是 Microsoft 开发的深度学习优化库,专注于大规模分布式训练,提供 ZeRO 优化器、混合精度训练等核心技术。
框架介绍
DeepSpeed 是由 Microsoft 开发的深度学习训练优化库,旨在降低大规模模型训练的门槛。其核心创新 ZeRO(Zero Redundancy Optimizer)技术通过消除内存冗余,显著降低训练大模型所需的显存。 DeepSpeed 的设计目标是"训练更大、更快、更省"——通过显存优化、通信优化和计算优化,使得在有限资源上训练百亿甚至千亿参数模型成为可能。它被广泛用于 BLOOM、MT-NLG 等大语言模型的训练。
核心特性
1
ZeRO 优化器
消除数据并行中的内存冗余,大幅降低显存占用
2
混合精度训练
支持 FP16、BF16 混合精度训练,加速计算并节省显存
3
梯度检查点
通过重计算策略用计算换显存,进一步降低内存需求
4
流水线并行
支持模型并行和流水线并行,实现多 GPU 高效协同
5
张量并行
支持张量并行,将单层计算分布到多个 GPU
6
DeepSpeed-Inference
提供高性能推理优化,支持模型量化和内核优化
应用场景
大语言模型训练
训练数十亿到千亿参数级别的大语言模型
有限资源训练
在有限显存资源上训练超出常规能力的模型
分布式集群训练
在多机多卡集群上进行高效分布式训练
模型微调
高效微调预训练大模型
适用人群与场景
大模型团队
训练和部署大规模语言模型的团队
GPU 资源受限者
希望在有限 GPU 资源上训练大模型的开发者
分布式系统工程师
构建大规模分布式训练系统的工程师
AI 基础设施团队
负责 AI 训练基础设施的平台团队