国产AI加速卡昆仑芯全面适配DeepSeek，助力3万卡集群点亮AI未来-大浪资讯

admin662025-02-06 16:51:55

国产AI加速卡昆仑芯全面适配DeepSeek，助力3万卡集群点亮AI未来

昆仑芯助力AI未来，3万卡集群全面点亮DeepSeek！

　　 2月6日的报道显示，仅仅过了两周时间，DeepSeek就已成为全球增长速度最快的AI应用之一。凭借其出色的表现和多样化的应用场景，它已经树立了行业标杆。目前，该应用已获得全行业的大力支持与协助进行适配和部署工作。最近，昆仑芯也正式加入到了这一合作中。

国产AI加速卡昆仑芯全面适配DeepSeek，助力3万卡集群点亮AI未来

　　昆仑芯前身是百度智能芯片及架构部门，于2021年4月完成了独立融资，首轮估值约为130亿元。在国内，它是最早涉足AI加速领域的公司之一，在体系结构、芯片实现、软件系统和应用场景方面积累了丰富经验。

国产AI加速卡昆仑芯全面适配DeepSeek，助力3万卡集群点亮AI未来

　　就在2月5日，也就是蛇年开工当天，昆仑芯新一代产品P800万卡集群点亮，3万卡集群也将于近日点亮。

国产AI加速卡昆仑芯全面适配DeepSeek，助力3万卡集群点亮AI未来

　　目前，昆仑芯已全面适配Deepseek的训练和推理版本，展现出色的性能，支持一键部署，且具有极高的成本效益。

国产AI加速卡昆仑芯全面适配DeepSeek，助力3万卡集群点亮AI未来

　　事实上，DeepSeek-V3/R1发布后不久，昆仑芯就率先完成了所有版本模型的适配工作，涵盖了DeepSeekMoE模型以及由其蒸馏出的Llama/Qwen等小型密集模型。

国产AI加速卡昆仑芯全面适配DeepSeek，助力3万卡集群点亮AI未来

　　同时，昆仑芯现已全面支持文心系列、Llama、Qwen、ChatGLM、Baichuan等多种大模型的推理与训练任务，其性能表现突出，并已在各类大模型任务中上线运行。

　　据介绍，昆仑芯P800能够有效支持Deepseek系列MoE模型的大规模训练任务，全面兼容MLA及多专家并行等功能。仅需32台设备便能实现模型全参数训练，从而高效完成模型的持续训练与微调过程。

　　 P800的显存规格优于同类主流GPU 20-50％，对MoE架构更加友好，且率先支持8bit推理，单机8卡即可运行671B模型，因此更易于部署，可显著降低运行成本。

　　目前，P800已经快速适配支持了Deepseek-V3/R1的持续全参数训练，LoRA等PEFT能力，提供给用户开箱即用的训练体验。

　　基于昆仑芯完整的软件生态栈，只需两步，就可以轻松实现在昆仑芯P800上进行DeepSeek-V3/R1推理部署。

　　 1、资源准备

　　镜像技术为开发者提供了方便快捷的依赖环境，使得项目能够迅速启动和运行。它不仅简化了开发流程，还减少了由于环境配置不一致带来的问题。这种开箱即用的方式大大提高了开发效率，让开发者可以更专注于代码本身而非环境搭建。不过，值得注意的是，尽管镜像带来了诸多便利，我们仍需关注其安全性与兼容性问题，确保在享受便捷的同时不会给项目带来潜在风险。这样的改进既体现了技术的进步，也提醒我们在使用新技术时需要全面考虑其利弊。

　　昆仑芯P800芯片专为8位推理设计，下载官方权重后，可以通过特定命令进行量化处理。对于不同尺寸的蒸馏模型，用户则可以直接通过Hugging Face平台下载。这种便捷的获取方式无疑大大简化了开发者的工作流程，使他们能够更专注于模型的优化和应用开发，而不是被繁琐的数据准备过程所困扰。昆仑芯的技术进步不仅提升了硬件的性能，也为AI社区提供了更为友好的开发环境，有助于推动人工智能技术在更多领域的广泛应用。

　　 2、启动服务&请求示例

　　 server和client使用方式和vllm社区基本一致，零成本上手。

　　启动服务能够通过镜像实现一键启动，而采样与推理参数则可以根据实际业务需求在脚本中进行配置。

　　下图为一个简单的请求示例：

随机文章

侧栏广告位

国产AI加速卡昆仑芯全面适配DeepSeek，助力3万卡集群点亮AI未来-大浪资讯

国产AI加速卡昆仑芯全面适配DeepSeek，助力3万卡集群点亮AI未来

相关文章