英特尔Gaudi 2D AI加速器助力DeepSeek Janus Pro模型实现飞速加速
深度学习新里程碑:英特尔Gaudi 2D AI加速器助力DeepSeek Janus Pro模型实现惊人飞速
近日,DeepSeek近期发布了JanusPro模型,其卓越的性能和高精度引起了业界的广泛关注。英特尔的Gaudi2 DAI加速器已经针对这一模型进行了优化,使得AI开发者能够在降低成本的同时,提高工作效率,从而更好地完成复杂任务的部署与优化。这种优化有效满足了行业应用对推理算力的需求,为AI应用的落地和规模化发展提供了强有力的支持。 这一进展不仅展示了技术领域的快速进步,也表明了硬件与软件协同优化在推动AI技术普及方面的重要作用。随着技术的不断迭代,我们有理由相信未来的AI应用将在更多领域得到广泛应用,并且更加高效、经济。这无疑是一个令人振奋的消息,预示着AI技术的发展将迎来新的里程碑。
作为一款具有创新性的AIGC模型,DeepSeekJanus模型融合了多模态理解和生成功能。该模型首次采用了统一的Transformer架构,打破了传统AIGC模型依赖多路径视觉编码的局限,实现了理解和生成任务的一体化支持。在此基础上,JanusPro通过改进训练策略和扩大模型规模,大幅提升了文本转图像等功能的性能与稳定性,并推出了10亿参数和70亿参数两个版本,在性能和精度方面表现出较强的竞争优势。
图片来源:https://github.com/deepseek-ai/Janus/blob/main/images/teaser_januspro.png
在Janus Pro统一的Transformer架构下,文生图模型的吞吐量高低已经从依赖加速器的高算力向充分利用HBM内存高带宽和大容量转换。英特尔? Gaudi 2D凭借 2.45TB/秒的高带宽和 96GB HBM 大容量内存,为 Janus Pro 模型提供了强大的计算支持,使其在生图批处理任务中,随着批量大小(Batch Size)的增加,吞吐性能得到显著提升,大幅缩短任务处理时间。
与此同时,借助英特尔Optimum-Habana框架的优化,英特尔® Gaudi2D在处理文生图任务时显著提高了吞吐性能和推理效率。现在,它仅需大约10秒就能生成16张高质量的图像,这种高效的性能表现令人印象深刻。此外,开发人员只需对现有代码进行少量调整,便能轻松实现这一改进,大大降低了技术门槛和迁移成本,这无疑为AI应用的快速部署提供了极大的便利。 这样的技术进步不仅加速了人工智能技术在各个领域的应用,还使得更多开发者能够参与到创新过程中来。通过简化复杂的操作流程,更多的创意和项目得以实现,从而推动了整个行业的发展。同时,这也表明硬件与软件的深度融合可以有效解决当前AI计算中的瓶颈问题,为未来的技术发展指明了新的方向。
图片来源:利用英特尔Gaudi 2D AI加速器运行DeepSeek Janus-Pro-7B模型生成
此外,DeepSeek的蒸馏模型现已兼容至强和Gaudi平台,这将有助于降低客户的总体拥有成本(TCO),进一步促进AI的普及。
一直以来,英特尔一直秉持开放的理念,并通过软硬件结合的方式加速AI技术的应用。目前,英特尔多元化的AI产品线,包括英特尔®至强®处理器、英特尔®酷睿®Ultra处理器以及英特尔锐炫®显卡等,已支持业界超过500个开源AI模型,涵盖了从DeepSeek、Llama3.1到通义千问等多个领域。此外,英特尔积极构建开放生态系统,不仅通过开放系统软件进行针对性优化,还推出了企业AI开放平台(OPEA),为这些模型提供全面支持。