继DeepSeek问世,我国自主研发芯片助力,AI训练费用迎来“八折”优惠革命

admin172025-03-26 16:15:04

标题:国产芯片助力AI创新,DeepSeek升级与蚂蚁百灵大模型显赫成果

正文:

近日,科技领域再次见证了中国AI技术的突破。3月24日晚,DeepSeek-V3迎来小版本升级,实测表现超乎预期。与此同时,另一款国产巨擘蚂蚁百灵也以其基于国产芯片的训练成果,实现了性能的同等突破,并且将训练成本降低了高达20%,引起了业界的广泛关注。

蚂蚁百灵大模型的突破性进展在团队发表的论文中得到详细阐述。该模型分为两款——百灵Lite,拥有168亿的参数规模(其中激活参数27.5亿),以及百灵Plus,其参数规模高达2900亿(激活参数288亿)。实验数据表明,即便是使用国产较低性能的GPU芯片,也能有效地训练出3000亿参数的MoE(混合专家)大语言模型,其性能与英伟达芯片训练的同参数模型相当。

论文中记者发现,传统上MoE大模型的训练多依赖于英伟达H100或H800等高性能GPU芯片。然而,高昂的成本和出口管制等问题,限制了这些大模型的普及。因此,蚂蚁百灵团队采取了一种创新的策略:利用低性能GPU进行模型训练,并在模型训练环境、优化策略、基础设施、训练过程、评估结果和推理等环节进行了全方位的优化,以低成本实现高性能。

百灵大模型的一大创新之处在于跨异构计算与分布式集群的应用。据蚂蚁团队透露,这一技术主要解决了基座芯片混合性能问题,通过分布式和跨异构计算来弥补不同品牌和型号芯片的结构和性能差异,从而在降低芯片成本的同时,避免了单一芯片产能的限制。

值得一提的是,百灵团队使用了5种不同的芯片配置来训练百灵Plus。在性能硬件配置下,训练1万亿token(词元)的预训练成本约为635万元,而经过百灵团队调优的低规格硬件配置,训练成本则降至约508万元,成本降低了近20%,同时保持了与通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当的性能。但据相关人士透露,这一测试结果是在实验环境中取得的,真实使用中的性能差异还需进一步验证。

目前,百灵大模型已经在生活服务、金融服务、医疗健康等多个场景得到应用。对于百灵大模型取得的成就,蚂蚁集团表示,未来将继续针对不同芯片进行优化,以降低AI应用的成本。此外,百灵Plus和百灵Lite两款大模型也将在未来开源。

[本文标题来源:《DeepSeek之后,国产芯片立功,AI训练成本再“打八折”》] [栏目主编:李晔 题图来源:上观题图] [来源:解放日报 查睿]


注:为确保排版符合博客发布要求,本文对原文进行了适当的段落调整和格式化处理,以增强阅读体验。