NSA 官宣:DeepSeek 推理降本提速,性能不受影响
颠覆性技术突破:NSA DeepSeek 推理助力,性能再创新高!
2月18日,DeepSeek正式宣布推出了NSA(NativeSparseAttention),这是一种硬件优化且原生可训练的稀疏注意力机制,旨在实现超高速的长上下文训练与推理。 这一技术的发布无疑为人工智能领域带来了新的突破。在处理大量数据时,传统的密集型注意力机制往往需要巨大的计算资源,而NSA通过引入稀疏性来减少不必要的计算,从而显著提升了效率。这不仅有助于加速模型训练过程,还能有效降低能耗,对于推动AI技术在实际应用中的普及具有重要意义。此外,NSA作为一种原生可训练的机制,意味着它能够更好地适应各种不同的应用场景,进一步拓展了深度学习的可能性。
NSA 的核心组件包括:
动态分层稀疏策略
粗粒度 token 压缩
细粒度 token 选择
DeepSeek官方宣称,该机制能够优化当前硬件设计,提升推理速度并减少预训练成本,同时不损失性能。在通用基准测试、长上下文任务以及基于指令的推理任务中,其表现与全注意力模型持平或更胜一筹。
附论文链接:
https://arxiv.org/abs/2502.11089