国产AI加速卡昆仑芯全面适配DeepSeek,助力3万卡集群点亮AI未来
昆仑芯助力AI未来,3万卡集群全面点亮DeepSeek!
2月6日的报道显示,仅仅过了两周时间,DeepSeek就已成为全球增长速度最快的AI应用之一。凭借其出色的表现和多样化的应用场景,它已经树立了行业标杆。目前,该应用已获得全行业的大力支持与协助进行适配和部署工作。最近,昆仑芯也正式加入到了这一合作中。
昆仑芯前身是百度智能芯片及架构部门,于2021年4月完成了独立融资,首轮估值约为130亿元。在国内,它是最早涉足AI加速领域的公司之一,在体系结构、芯片实现、软件系统和应用场景方面积累了丰富经验。
就在2月5日,也就是蛇年开工当天,昆仑芯新一代产品P800万卡集群点亮,3万卡集群也将于近日点亮。
目前,昆仑芯已全面适配Deepseek的训练和推理版本,展现出色的性能,支持一键部署,且具有极高的成本效益。
事实上,DeepSeek-V3/R1发布后不久,昆仑芯就率先完成了所有版本模型的适配工作,涵盖了DeepSeekMoE模型以及由其蒸馏出的Llama/Qwen等小型密集模型。
同时,昆仑芯现已全面支持文心系列、Llama、Qwen、ChatGLM、Baichuan等多种大模型的推理与训练任务,其性能表现突出,并已在各类大模型任务中上线运行。
据介绍,昆仑芯P800能够有效支持Deepseek系列MoE模型的大规模训练任务,全面兼容MLA及多专家并行等功能。仅需32台设备便能实现模型全参数训练,从而高效完成模型的持续训练与微调过程。
P800的显存规格优于同类主流GPU 20-50%,对MoE架构更加友好,且率先支持8bit推理,单机8卡即可运行671B模型,因此更易于部署,可显著降低运行成本。
目前,P800已经快速适配支持了Deepseek-V3/R1的持续全参数训练,LoRA等PEFT能力,提供给用户开箱即用的训练体验。
基于昆仑芯完整的软件生态栈,只需两步,就可以轻松实现在昆仑芯P800上进行DeepSeek-V3/R1推理部署。
1、资源准备
镜像技术为开发者提供了方便快捷的依赖环境,使得项目能够迅速启动和运行。它不仅简化了开发流程,还减少了由于环境配置不一致带来的问题。这种开箱即用的方式大大提高了开发效率,让开发者可以更专注于代码本身而非环境搭建。不过,值得注意的是,尽管镜像带来了诸多便利,我们仍需关注其安全性与兼容性问题,确保在享受便捷的同时不会给项目带来潜在风险。 这样的改进既体现了技术的进步,也提醒我们在使用新技术时需要全面考虑其利弊。
昆仑芯P800芯片专为8位推理设计,下载官方权重后,可以通过特定命令进行量化处理。对于不同尺寸的蒸馏模型,用户则可以直接通过Hugging Face平台下载。这种便捷的获取方式无疑大大简化了开发者的工作流程,使他们能够更专注于模型的优化和应用开发,而不是被繁琐的数据准备过程所困扰。昆仑芯的技术进步不仅提升了硬件的性能,也为AI社区提供了更为友好的开发环境,有助于推动人工智能技术在更多领域的广泛应用。
2、启动服务&请求示例
server和client使用方式和vllm社区基本一致,零成本上手。
启动服务能够通过镜像实现一键启动,而采样与推理参数则可以根据实际业务需求在脚本中进行配置。
下图为一个简单的请求示例: