科大讯飞与华为携手,国产算力领域再创新高
大浪资讯(3月11日)——近日,科大讯飞研究院传来喜讯,与华为强强联手,在国产算力领域取得了突破性进展。双方联合团队成功实现了国产算力集群在MoE模型上大规模跨节点专家并行集群推理的突破,这标志着继DeepSeek发布其MoE模型训练推理方案后,业界首次推出基于国产算力的全新解决方案。
软硬件协同创新,突破关键技术
联合团队通过软硬件的深度融合与创新,在多个关键技术层面挖掘硬件潜力,成功在昇腾集群上完成了验证与部署。在算子融合方面,团队在MLA预处理阶段采用了Vector与Cube异构计算单元并行流水,将多个小算子融合重构为原子级计算单元,有效消除了小算子下发开销,使得MLA前处理时延降低超过50%,显著提升了性能。
混合并行策略,通信计算并行优化
在混合并行策略和通信计算并行优化方面,团队构建了TP(张量并行)+EP(专家并行)混合范式。对于MLA计算层,团队采用了机内TP并行,充分利用机内高速互联优势,降低跨机通信损耗。同时,创新性地实现了MoE专家分层调度,通过64卡均衡分配专家计算节点,定制AllToAll通信协议,专家数据交换效率提升40%,构建了跨机/机内双层通信架构,通过分层优化降低了跨机流量60%。此外,团队还研发了路由专家负载均衡算法,实现了卡间负载差异小于10%,集群吞吐提升30%。
性能显著提升,效率大幅优化
通过分布式架构的创新与算法的协同优化,联合团队在国产算力上实现了显著的性能提升。单卡静态内存占用缩减至双机部署的1/4,效率提升75%,专家计算密度增加4倍,推理吞吐提升3.2倍,端到端时延降低50%。
应用前景广阔,训练效率翻倍
科大讯飞研究院表示,这一突破性的解决方案也将应用于讯飞星火深度推理模型的训练加速,预期训练时推理效率将提升200%。同时,基于该方案的推理引擎也实现了国产算力上DeepSeek V3和R1的高效推理。
星火X1升级,数学能力全面领先
此外,大浪资讯从科大讯飞公告获悉,科大讯飞深度推理大模型星火X1也完成了升级。在模型参数量比业界同行少一个数量级的情况下,星火X1的数学能力全面对标DeepSeek R1和OpenAI o1,在中文数学各项任务中均实现领先。
结语:科大讯飞与华为的此次合作,无疑为国产算力领域注入了新的活力,不仅推动了技术创新,也为未来算力产业的发展奠定了坚实基础。