英伟达新品难产引发行业热议
供不应求!英伟达新品掀起狂潮,行业瞩目难产话题
数界探索
继B200/GB200芯片交付推迟后,英伟达可能再次遭遇新产品发布的挑战。这一连串的供应链问题不仅会影响其产品线的正常推出,还可能对其市场声誉造成一定冲击。在竞争激烈的半导体行业中,这样的延误无疑给英伟达带来了额外的压力,同时也提醒业界,即使是最具创新能力的企业也可能面临供应链管理上的难题。
12月24日,据Wccftech报道,英伟达最新旗舰芯片B300和GB300的参数已经确定。其中,B300的显存容量从上一代的192Gb增加到了288Gb;而GB300平台将首次采用LPCAMM内存模块设计,并且配备了带宽高达1.6Tbps的光模块,以保证数据的高速传输。
在性能显著提升的同时,B300/GB300的功耗也达到了前所未有的水平,TDP(热设计功耗)高达1400W。相比之下,Hopper架构的主要产品H100芯片,其TDP仅为350W。
这对于服务器的散热设计而言,确实构成了一个重大的技术难题。随着数据中心规模的不断扩大,如何在保证高性能运算的同时有效控制设备温度,已成为业界亟待解决的关键问题之一。目前,虽然已有多种冷却技术和材料被提出和应用,但要达到既节能又高效的散热效果,依然需要进一步的技术创新和突破。 这种挑战不仅关系到单个服务器的性能稳定性和使用寿命,更直接影响到整个数据中心的运行效率与能源消耗水平。因此,寻找更为先进和有效的散热解决方案,不仅是技术层面的需求,更是推动绿色数据中心发展的必然趋势。
而就在上周,天风国际的分析师郭明錤在最新报告中指出,英伟达在研发B300/GB300的DrMOS技术过程中遇到了严重挑战,主要是芯片过热问题。这一技术障碍可能会对B300/GB300的生产计划造成影响。目前看来,英伟达需要解决这一关键的技术瓶颈才能顺利推进产品的量产。希望英伟达能够尽快找到解决方案,以避免可能的供应链延迟。
尽管黄仁勋此前曾多次表示,英伟达未来将严格遵循“一年一换代”的原则,但旗下GPU在改用Blackwell架构后,不止一次出现“跳票”的情况。
Blackwell架构,真有问题?
在郭明錤发布的研究报告中提到,B300/GB300目前遇到的问题是:由AOS(AlphaΩ Semiconductor)公司提供的5*5 DrMOS方案在测试过程中出现了过热现象。
先来说说DrMos是什么。
这项技术由英特尔在2004年推出,其主要原理是将驱动器与MOSFET集成在一起,以此来减少多个组件所需的空间,并降低寄生参数带来的不良影响,进而提高转换效率和功率密度。
简单地来说,它就是一个高度集成的电源解决方案。
消费级显卡RTX3060上的DrMos,由AOS供应
在英伟达的Hooper架构芯片上,包括H100、A100、H800和A800在内的产品,其DrMos方案均由MPS(Monolithic Power Systems)提供。出于“不要将所有鸡蛋放在一个篮子”的考虑,英伟达在Blackwell架构芯片上开始测试AOS的方案。
那是否能说明,AOS应该为B300芯片的过热问题“背锅”呢?
恐怕并不能。
首先,AOS的5x5 DrMos芯片以其出色的散热性能和高度成熟的设计,在业内已得到广泛验证。
其次,郭明錤的财报中也提到了,有产业链人士指出,B300的发热问题除了DrMos芯片本身之外,还源于系统芯片管理的设计不足。
这已经不是Blackwell第一次被曝出存在设计问题。
今年8月,据《The Information》报道,在台积电流片过程中,B200被发现存在设计缺陷。
最初行业内猜测可能是台积电的N4P制程工艺出现了问题。然而,在与高盛投资人的交流会上,黄仁勋揭示了真正的原因:由于GPU芯片、LSI桥接器、RDL中介层和主板基板之间的热膨胀系数不匹配,导致封装结构发生弯曲。
“100%是英伟达的责任。”
在芯片设计被曝出缺陷后,B200/GB200芯片的交付时间从今年第三季度被推迟至第四季度。目前,市场上仍未有公司获得B200芯片。根据公开资料,马斯克凭借10.8亿美元的订单,获得了B200芯片的优先交付权,这些芯片将用于增强xAI的超级计算集群Colossus。
即使获得了优先交付权xAI,也需等到明年1月份才能收到B200芯片。
关于B300芯片的报道,这是一款计划在明年3月GTC大会期间推出的高端产品,然而目前它却遭遇了“尚未发布即遇到生产难题”的困境。
完全掌控AI服务器芯片市场的英伟达,为何在Blackwell项目上屡次遭遇挫折。
一个关键因素是,英伟达过分注重芯片性能上的革命性突破,使得Blackwell系列芯片在作为量产产品的同时,几乎成为一个试验性平台。
比如CoWoS-L封装技术的应用。
这里需要说一个背景是,Blackwell是一枚基于MCM(多芯片封装)设计的GPU,即在同一个芯片上集成两颗GPU die。
为了配合英伟达的需求,台积电方面首次将CoWoS-L技术应用在这枚芯片的封装上。而在此之前,CoWoS-L封装也没有经过大规模验证。
有业内人士指出,CoWoS-L封装现阶段的良率可能在90%左右,作为一项后段工艺,这个数字很不理想。
需求是否过于乐观?
在Blackwell架构芯片推出后,知名华尔街投行Keybanc Capital Markets曾发出了一份预测:
Blackwell芯片将助力英伟达的数据中心业务收入,从2024财年(截止2024年1月)的475亿美元攀升至2025年的2000多亿美元。
众所周知,在大模型的训练与部署过程中,英伟达的GPU发挥了关键作用。然而,BlackWell架构芯片是否能够独自推动业绩实现翻倍增长,仍值得商榷。
即便忽略掉B200/B300的延期交付问题,仅从市场需求来看,可能并不是特别的乐观。
对于各大互联网公司而言,若大规模引入基于Blackwell芯片的服务器,势必会显著增加算力中心的建设成本。这无疑是一个需要仔细权衡的问题。尽管Blackwell芯片在性能上具有明显优势,但其高昂的成本可能会给公司的财务状况带来不小的压力。因此,在决定是否全面采用这种新型芯片之前,企业需要综合考虑技术进步带来的潜在收益与成本上升之间的平衡。 这种选择不仅关乎短期的经济考量,更涉及长期的战略布局和技术发展方向。如何在追求技术创新的同时控制成本,将是这些公司在未来发展中必须面对的重要课题。
因为B200芯片高达1000W的TDP实际上已超过了传统风冷散热的极限,许多服务器厂商为了解决散热问题,不得以堆砌3D VC(真空腔均热板)的数量和面积,由此导致在42U的标准服务器机柜中,可容纳的芯片越来越少。
当B300芯片应用时,无论怎样改进风冷散热系统,都无法应对1400W的功耗问题,因此必须转向液冷解决方案。
对于已经建立好计算中心的厂商来说,转向液冷技术可能会导致成本显著增加。例如,在传统的服务器机房建设过程中,空调系统的设计往往受到特别重视,部分大型计算中心的空调系统甚至能够实现零度以下的送风。 在我看来,尽管液冷技术在散热效率上具有明显优势,但对已有的计算中心进行改造以适应这种新技术,无疑会面临较高的初期投入。这不仅涉及到设备更新换代的成本,还包括可能需要重新设计或升级现有基础设施的费用。因此,对于许多厂商而言,如何平衡技术升级与成本控制,将成为一个值得深思的问题。
如果改用液冷技术,那么除了需要增加相应的基础设施外,那些曾经花费巨资建设的空调系统将会被闲置,变成昂贵的摆设。 这种转变不仅涉及高昂的技术改造成本,还可能带来资源浪费的问题。如何在升级过程中最大限度地利用现有设施,减少不必要的开支,成为了一个值得深思的问题。同时,这也促使相关行业思考如何更高效地整合旧有系统与新技术,以实现可持续发展。
目前,一组基于GB200的AI服务器因带宽配置不同,售价大约在200至300万美元之间。若这些服务器改用GB300并采用液冷技术,其价格可能还会翻一番。 从当前市场情况来看,这样的成本对于许多企业来说确实是一笔巨大的开销。尽管液冷技术能够提供更高的能效和更稳定的运行环境,但其高昂的成本仍然是一个难以忽视的问题。如何在性能提升与成本控制之间找到平衡,依然是未来AI硬件发展需要解决的关键问题之一。
还有一个关键问题是,市场上对最新GPU的需求是否非常旺盛?
就在12月14日的NeurIPS大会上,OpenAI联合创始人Ilya Sutskever提到,大模型的预训练阶段可能即将结束,因为AI的“数据”资源似乎已接近枯竭。 这一言论引发了业界对于当前AI技术发展瓶颈的广泛讨论。尽管近年来深度学习领域取得了显著进展,但随着数据量的增加,获取高质量且多样化的训练数据变得越来越困难。这种情况下,单纯依赖数据驱动的方法可能会遇到天花板,未来的研究或许需要更多地关注算法创新和计算效率的提升。如何在有限的数据资源下实现更好的模型性能,将是未来AI研究的一个重要课题。
如果Ilya的判断准确无误,那么大模型研究的重点确实会从训练逐渐转向推理。尽管英伟达的Blackwell系列芯片在“训推一体”方面表现出色,但未来有多少厂商愿意长期承担高昂的研发和生产成本,仍然值得商榷。 这种趋势表明,行业可能更倾向于寻找性价比更高的解决方案,以满足日益增长的推理需求。这不仅会对硬件制造商提出新的挑战,也会推动软件和算法领域的创新,以优化资源利用效率。对于整个行业来说,如何平衡技术进步与成本控制将成为一个重要议题。