摩尔线程携手DeepSeek共同助力开源周盛宴——“一站式”解决方案亮相大浪资讯

admin102025-03-02 09:12:24

摩尔线程全面拥抱DeepSeek开源周,助力AI计算加速

大浪资讯(3月2日)—— 深度学习领域的开源盛宴DeepSeek开源周圆满落幕,摩尔线程智能科技(北京)股份有限公司在活动尾声之际,宣布在短时间内对DeepSeek的多个开源项目实现了全面支持。这一支持涵盖了FlashMLA、DeepEP、DeepGEMM、DualPipe以及Fire-Flyer文件系统(3FS)等多个关键组件。

摩尔线程开源代码合集

为了方便开发者获取和利用这些开源资源,大浪资讯特别整理了摩尔线程支持DeepSeek开源周的代码合集。

FlashMLA

FlashMLA是一款专为加速MLA(Multi-Head Latent Attention)机制计算而设计的开源仓库。它特别适用于DeepSeek系列模型,如DeepSeek-V2、V3和R1。摩尔线程基于全新的MUSA Compute Capability 3.1计算架构,提供了原生FP8计算能力,并升级了高性能线性代数模板库MUTLASS,从而快速支持了FlashMLA。借助MUTLASS 0.2.0,摩尔线程发布了开源仓库MT-FlashMLA,实现了对DeepSeek FlashMLA的快速兼容部署。

DeepEP

DeepEP是一个专为MoE(混合专家)模型训练和推理设计的开源EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要EP的集群训练。通过优化通信信道的使用率,DeepEP显著提升了训练效率。摩尔线程基于MUSA Compute Capability 3.1全功能GPU,第一时间适配了DeepEP,支持以下特性:

  • 高效优化的All-to-All通信,支持dispatch & combine
  • 支持MTLink + GPU(MUSA Compute Capability 3.1)节点内通信
  • 训练及推理预填充阶段的高吞吐量计算核心
  • 推理解码阶段的低延迟计算核心
  • 原生支持FP8数据分发
  • 灵活控制GPU资源,实现计算与通信的高效重叠

  • MT-DeepEP开源地址https://github.com/MooreThreads/MT-DeepEP

DeepGEMM

DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,为V3/R1的训练与推理提供强大动力。该开源仓库基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发。摩尔线程基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能。

DualPipe

DualPipe是DeepSeek-V3提出的一种双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了“流水线气泡”(设备空闲等待)。与传统流水线并行相比,DualPipe采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。摩尔线程依托深度学习框架Torch-MUSA(已开源)和MUSA软件栈的全方位兼容性,实现了对DualPipe的高效支持。MT-DualPipe可以完整接入摩尔线程MT-Megatron框架和即将开源的MT-TransformerEngine框架,实现DeepSeek V3训练流程的完整复现。

3FS

Fire-Flyer文件系统(3FS)是一种利用现代SSD和RDMA网络全部带宽的并行文件系统,能够将固态硬盘的带宽性能发挥到极致。在V3和R1的训练与推理过程中,3FS成为关键支撑,以应对AI训练和推理工作负载的挑战。摩尔线程在一天内迅速完成了高性能分布式文件系统3FS的搭建,并高效开发了存储插件,成功实现与夸娥智算集群的无缝集成,为AI训练、AI推理、科学计算等场景提供全栈存储加速方案。

摩尔线程的这一系列动作不仅展示了其在深度学习领域的深厚技术积累,也彰显了其对开源生态的积极贡献。随着这些开源项目的深入应用,我们有理由相信,AI计算将迎来更加高效和便捷的未来。