Megatron-LM

训练框架训练框架开源

12.0k Stars·Apache-2.0

Megatron-LM 是 NVIDIA 开发的大规模 transformer 训练框架，专注于 GPU 高效并行训练技术。

框架介绍

Megatron-LM 是由 NVIDIA 开发的大规模 Transformer 模型训练框架，专注于研究高效的 GPU 并行训练技术。它是训练 Megatron、GPT-3 等超大规模语言模型的核心工具。 Megatron-LM 的核心优势在于其高效的并行策略——通过张量并行、流水线并行和序列并行的组合，在 NVIDIA GPU 集群上实现接近线性的扩展效率。它与 DeepSpeed 的结合（Megatron-DeepSpeed）成为当前训练超大模型的主流方案。

核心特性

张量并行

将 transformer 层内的矩阵计算分布到多个 GPU，高效利用 GPU 间带宽

流水线并行

将模型层分布到不同 GPU，实现跨设备流水线执行

序列并行

将长序列分布到多个 GPU，突破序列长度限制

混合专家支持

原生支持 Mixture of Experts（MoE）架构训练

NVIDIA 优化

针对 NVIDIA GPU 和 NVLink 深度优化的通信和计算内核

模型检查点

高效的分布式检查点保存和加载机制

应用场景

超大模型训练

训练数百亿到千亿参数的超大规模语言模型

NVIDIA GPU 集群

在 NVIDIA GPU 集群上进行高效分布式训练

Transformer 研究

研究新型 Transformer 架构和训练技术

Megatron-DeepSpeed

与 DeepSpeed 结合训练超大模型

适用人群与场景

NVIDIA 用户

使用 NVIDIA GPU 集群进行大规模训练的团队

大模型研究团队

进行前沿大语言模型研究的团队

分布式系统专家

研究和优化分布式训练算法的专家

AI 实验室

具备大规模计算资源的 AI 研究实验室