在英伟达的GTC大会上,一场没有剧本、没有提词器的AI盛宴正如超级碗般精彩。在这场高浓度的AI发布会上,一个意外的瞬间成为了最温馨的回忆:黄仁勋在演讲过程中被线缆绊住,这一幕在如今频繁彩排或录播的科技发布会上显得尤为珍贵。
黄仁勋发布新一代AI芯片,DeepSeek成隐藏主角
在刚刚的发布会中,黄仁勋发布了全新一代的AI芯片,而这场发布会的真正主角,非DeepSeek莫属。
智能体AI和推理能力的提升,计算需求激增
据黄仁勋在会上透露,由于智能体AI(Agentic AI)和推理能力的显著提升,现在的计算需求至少是去年同期的100倍。推理成本效率成为AI行业的关键,而不仅仅是计算能力的堆积,这是贯穿整个发布会的主线。英伟达的目标是打造AI工厂,让AI的学习和推理速度超越人类。
AI工厂的效率至上
黄仁勋强调,推理本质上就像一座工厂在生产token,而工厂的价值取决于其创造收入和利润的能力。因此,这座工厂必须以极致的效率运转。
英伟达新「核弹」芯片亮相,性能再创新高
在此次发布会上,英伟达推出了全新的Blackwell芯片,代号为“Ultra”,也就是GB300 AI芯片,继去年的“全球最强AI芯片”B200之后,再次在性能上实现了突破。
Blackwell Ultra:性能与效率的双重提升
Blackwell Ultra将包括英伟达GB300 NVL72机架级解决方案,以及英伟达HGX B300 NVL16系统。预计将于今年下半年发布的Blackwell Ultra GB300 NVL72,其参数如下:
- 1.1 EF FP4 Inference:在进行FP4精度的推理任务时,能够达到1.1 ExaFLOPS(每秒百亿亿次浮点运算)。
- 0.36 EF FP8 Training:在进行FP8精度的训练任务时,性能为1.2 ExaFLOPS。
- 1.5X GB300 NVL72:与GB200 NVL72相比,性能提升1.5倍。
- 20 TB HBM3:配备了20TB HBM内存,是前代的1.5倍。
- 40 TB Fast Memory:拥有40TB的快速内存,是前代的1.5倍。
- 14.4 TB/s CX8:支持CX8,带宽为14.4 TB/s,是前代的2倍。
Blackwell Ultra:AI工厂的强大动力
除了Blackwell Ultra,英伟达还推出了包含单个GB300 Blackwell Ultra芯片的台式电脑DGX Station。此外,英伟达还推出了专为桌面优化的GB10 Grace Blackwell超级芯片的“迷你主机”Project DIGITS,正式命名为DGX Spark。
下一代AI芯片Rubin官宣,2026年下半年推出
英伟达一直以其科学家的名字为其架构命名,这一次,下一代AI芯片平台被命名为“Vera Rubin”,以纪念美国著名天文学家薇拉·鲁宾。Rubin的性能将达到Hopper的900倍,而Blackwell相较Hopper已实现了68倍的提升。
Rubin Ultra:性能与内存的双重飞跃
Rubin Ultra NVL576预计将于2027年下半年推出,其参数如下:
- 15 EF FP4 Inference:在FP4精度下进行推理任务时,性能达到15 ExaFLOPS。
- 5 EF FP8 Training:在FP8精度下进行训练任务时,性能为5 ExaFLOPS。
- 14X GB300 NVL72:相比GB300 NVL72,性能提升14倍。
- 4.6 PB/s HBM4e:配备HBM4e内存,带宽为4.6 PB/s。
- 365 TB Fast Memory:系统拥有365 TB的快速内存,是前代的8倍。
- 1.5 PB/s NVLink7:支持NVLink 7,带宽为1.5 PB/s,是前代的12倍。
- 115.2 TB/s CX9:支持CX9,带宽为115.2 TB/s,是前代的8倍。
英伟达Spectrum-X™和Quantum-X硅光网络交换机,加速AI工厂的连接
为了满足AI工厂对带宽、低延迟和高能效的需求,英伟达推出了Spectrum-X™和Quantum-X硅光网络交换机,旨在帮助AI工厂实现跨站点连接数百万GPU,同时显著降低能耗和运营成本。
AI工厂的“操作系统”Dynamo
黄仁勋表示,未来,每个行业、每家公司都将拥有两个工厂:一个是实际生产的工厂,另一个是AI工厂,而Dynamo则是专门为“AI工厂”打造的操作系统。
人形机器人GR00T N1亮相,开启AI时代的下一个前沿领域
在GTC大会上,英伟达带来了全球首款开源人形机器人功能模型Isaac GR00T N1,标志着通用机器人技术的时代已经到来。
DeepSeek-R1推理速度创全球之最
英伟达实现了全球最快的DeepSeek-R1推理,一台搭载8个Blackwell GPU的DGX系统,在运行6710亿参数的DeepSeek-R1模型时,可实现每用户每秒超过250个token的速度。
英伟达的AI之路:从芯片到软件,从训练到推理
从最新的核弹芯片到量子计算,从芯片到软件,从训练到推理,英伟达在AI领域的布局和洞察,无疑为未来的AI发展指明了方向。