黄仁勋重磅发布全新三代AI芯片,个人超级计算机运算能力突破每秒千亿亿次,DeepSeek在竞争中脱颖而出,成为最大受益者。

admin122025-03-19 16:55:33

在英伟达的GTC大会上,一场没有剧本、没有提词器的AI盛宴正如超级碗般精彩。在这场高浓度的AI发布会上,一个意外的瞬间成为了最温馨的回忆:黄仁勋在演讲过程中被线缆绊住,这一幕在如今频繁彩排或录播的科技发布会上显得尤为珍贵。

黄仁勋发布新一代AI芯片,DeepSeek成隐藏主角

在刚刚的发布会中,黄仁勋发布了全新一代的AI芯片,而这场发布会的真正主角,非DeepSeek莫属。

智能体AI和推理能力的提升,计算需求激增

据黄仁勋在会上透露,由于智能体AI(Agentic AI)和推理能力的显著提升,现在的计算需求至少是去年同期的100倍。推理成本效率成为AI行业的关键,而不仅仅是计算能力的堆积,这是贯穿整个发布会的主线。英伟达的目标是打造AI工厂,让AI的学习和推理速度超越人类。

AI工厂的效率至上

黄仁勋强调,推理本质上就像一座工厂在生产token,而工厂的价值取决于其创造收入和利润的能力。因此,这座工厂必须以极致的效率运转。

英伟达新「核弹」芯片亮相,性能再创新高

在此次发布会上,英伟达推出了全新的Blackwell芯片,代号为“Ultra”,也就是GB300 AI芯片,继去年的“全球最强AI芯片”B200之后,再次在性能上实现了突破。

Blackwell Ultra:性能与效率的双重提升

Blackwell Ultra将包括英伟达GB300 NVL72机架级解决方案,以及英伟达HGX B300 NVL16系统。预计将于今年下半年发布的Blackwell Ultra GB300 NVL72,其参数如下:

  • 1.1 EF FP4 Inference:在进行FP4精度的推理任务时,能够达到1.1 ExaFLOPS(每秒百亿亿次浮点运算)。
  • 0.36 EF FP8 Training:在进行FP8精度的训练任务时,性能为1.2 ExaFLOPS。
  • 1.5X GB300 NVL72:与GB200 NVL72相比,性能提升1.5倍。
  • 20 TB HBM3:配备了20TB HBM内存,是前代的1.5倍。
  • 40 TB Fast Memory:拥有40TB的快速内存,是前代的1.5倍。
  • 14.4 TB/s CX8:支持CX8,带宽为14.4 TB/s,是前代的2倍。

Blackwell Ultra:AI工厂的强大动力

除了Blackwell Ultra,英伟达还推出了包含单个GB300 Blackwell Ultra芯片的台式电脑DGX Station。此外,英伟达还推出了专为桌面优化的GB10 Grace Blackwell超级芯片的“迷你主机”Project DIGITS,正式命名为DGX Spark。

下一代AI芯片Rubin官宣,2026年下半年推出

英伟达一直以其科学家的名字为其架构命名,这一次,下一代AI芯片平台被命名为“Vera Rubin”,以纪念美国著名天文学家薇拉·鲁宾。Rubin的性能将达到Hopper的900倍,而Blackwell相较Hopper已实现了68倍的提升。

Rubin Ultra:性能与内存的双重飞跃

Rubin Ultra NVL576预计将于2027年下半年推出,其参数如下:

  • 15 EF FP4 Inference:在FP4精度下进行推理任务时,性能达到15 ExaFLOPS。
  • 5 EF FP8 Training:在FP8精度下进行训练任务时,性能为5 ExaFLOPS。
  • 14X GB300 NVL72:相比GB300 NVL72,性能提升14倍。
  • 4.6 PB/s HBM4e:配备HBM4e内存,带宽为4.6 PB/s。
  • 365 TB Fast Memory:系统拥有365 TB的快速内存,是前代的8倍。
  • 1.5 PB/s NVLink7:支持NVLink 7,带宽为1.5 PB/s,是前代的12倍。
  • 115.2 TB/s CX9:支持CX9,带宽为115.2 TB/s,是前代的8倍。

英伟达Spectrum-X™和Quantum-X硅光网络交换机,加速AI工厂的连接

为了满足AI工厂对带宽、低延迟和高能效的需求,英伟达推出了Spectrum-X™和Quantum-X硅光网络交换机,旨在帮助AI工厂实现跨站点连接数百万GPU,同时显著降低能耗和运营成本。

AI工厂的“操作系统”Dynamo

黄仁勋表示,未来,每个行业、每家公司都将拥有两个工厂:一个是实际生产的工厂,另一个是AI工厂,而Dynamo则是专门为“AI工厂”打造的操作系统。

人形机器人GR00T N1亮相,开启AI时代的下一个前沿领域

在GTC大会上,英伟达带来了全球首款开源人形机器人功能模型Isaac GR00T N1,标志着通用机器人技术的时代已经到来。

DeepSeek-R1推理速度创全球之最

英伟达实现了全球最快的DeepSeek-R1推理,一台搭载8个Blackwell GPU的DGX系统,在运行6710亿参数的DeepSeek-R1模型时,可实现每用户每秒超过250个token的速度。

英伟达的AI之路:从芯片到软件,从训练到推理

从最新的核弹芯片到量子计算,从芯片到软件,从训练到推理,英伟达在AI领域的布局和洞察,无疑为未来的AI发展指明了方向。