DeepSpeed

训练框架训练框架开源

36.0k Stars·MIT

DeepSpeed 是 Microsoft 开发的深度学习优化库，专注于大规模分布式训练，提供 ZeRO 优化器、混合精度训练等核心技术。

框架介绍

DeepSpeed 是由 Microsoft 开发的深度学习训练优化库，旨在降低大规模模型训练的门槛。其核心创新 ZeRO（Zero Redundancy Optimizer）技术通过消除内存冗余，显著降低训练大模型所需的显存。 DeepSpeed 的设计目标是"训练更大、更快、更省"——通过显存优化、通信优化和计算优化，使得在有限资源上训练百亿甚至千亿参数模型成为可能。它被广泛用于 BLOOM、MT-NLG 等大语言模型的训练。

核心特性

ZeRO 优化器

消除数据并行中的内存冗余，大幅降低显存占用

混合精度训练

支持 FP16、BF16 混合精度训练，加速计算并节省显存

梯度检查点

通过重计算策略用计算换显存，进一步降低内存需求

流水线并行

支持模型并行和流水线并行，实现多 GPU 高效协同

张量并行

支持张量并行，将单层计算分布到多个 GPU

DeepSpeed-Inference

提供高性能推理优化，支持模型量化和内核优化

应用场景

大语言模型训练

训练数十亿到千亿参数级别的大语言模型

有限资源训练

在有限显存资源上训练超出常规能力的模型

分布式集群训练

在多机多卡集群上进行高效分布式训练

模型微调

高效微调预训练大模型

适用人群与场景

大模型团队

训练和部署大规模语言模型的团队

GPU 资源受限者

希望在有限 GPU 资源上训练大模型的开发者

分布式系统工程师

构建大规模分布式训练系统的工程师

AI 基础设施团队

负责 AI 训练基础设施的平台团队