蚂蚁集团宣布新型模型训练成本削减:多芯片适配优化中,计划逐步开放源代码 - 大浪资讯报道

admin82025-03-24 16:08:17

蚂蚁集团AI大模型“百灵”训练成本优化成果显著,开源计划即将启动

大浪资讯 —— 2023年3月24日,新浪科技报道了一则引人关注的新闻,蚂蚁集团对于其“百灵”大模型的训练成本问题做出了正面回应。据悉,蚂蚁集团一直在对各种芯片进行持续的优化调整,旨在降低AI应用的整体成本。目前,这一努力已取得显著成效,并将逐步通过开源的方式与业界共享。

事件背景

近期,蚂蚁集团的Ling团队在预印本平台Arxiv上发布了他们的技术成果论文,题为《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》。该论文宣布了两个不同规模的MoE(混合专家)大语言模型的推出——百灵轻量版(Ling-Lite)和百灵增强版(Ling-Plus),并提出了一系列创新技术,实现了在低性能硬件上高效训练大模型,显著降低了成本。

百灵模型的亮点

  • 参数规模:百灵轻量版的参数规模为168亿(激活参数27.5亿),而增强版的基座模型参数规模高达2900亿(激活参数288亿),其性能均达到了行业领先水平。
  • 训练效率:实验结果显示,3000亿参数的MoE大模型能够在使用国产GPU的低性能设备上完成高效训练,其性能与完全使用英伟达芯片、同规模的稠密模型及MoE模型相当。

相关阅读

随着“百灵”大模型在成本优化方面的成就,我们期待蚂蚁集团能够继续推动AI技术的发展,为业界带来更多创新与可能。