深度探索:硅谷巨头被超越,出口管制难挡震撼大突破!
巨头之争:硅谷新霸主崛起!
当大家都在欢度圣诞节时,一个中国实验室发布了一个震惊世界的AI模型。这无疑具有象征意义。长期以来,美国一直在全球AI竞争中占据领先位置,但DeepSeek的最新成果正在改写这一局面。
在一次接受美国媒体的采访中,ScaleAI的创始人兼首席执行官亚历山大·王(AlexandrWang)表达了这样的感慨。
短短半月时间,一款来自中国实验室的AI模型凭借令人惊叹的表现数据,震惊了整个硅谷的AI界。
从科技巨头到AI新贵,再到技术专家,几乎所有人都感受到了来自中国AI行业的强烈冲击。更令人震惊的是,在面对出口管制和算力匮乏的情况下,中国AI行业依然实现了弯道超车。 这种现象不仅反映了中国在人工智能领域的强劲发展势头,也展示了其在逆境中的韧性和创新能力。面对国际环境的不确定性和资源的限制,中国AI行业通过自主创新和技术突破,不仅巩固了自身的市场地位,还为全球AI技术的发展注入了新的活力。这一成就值得世界其他国家学习和借鉴。
横空出世空降登顶
这家实验室是中国的DeepSeek,成立于2023年。他们在去年年底推出了一款免费开源的大语言模型。
根据该公司发表的论文,DeepSeek-R1在多项数学和推理基准测试中超越了行业领先的OpenAI等模型,并在性能、成本、开放性等指标方面超过了美国AI巨头。
在多项第三方基准测试中,DeepSeek的模型在处理复杂问题解决、数学和编程等多个领域上的准确性,均超过了Meta的Llama3.1、OpenAI的GPT-4、以及Anthropic的ClaudeSonnet3.5。科技行业始终强调数据的重要性,这些测试结果再次证明了DeepSeek模型的卓越性能。
就在上周,DeepSeek近日发布了其最新推理模型R1,在多个第三方测试中表现出色,甚至超越了OpenAI近期推出的o1模型。这一成就不仅彰显了DeepSeek在人工智能领域的技术实力,也预示着未来可能在更多应用场景中看到这一技术的身影。这无疑是一次重要的突破,有望推动整个行业向前发展,同时也引发了关于不同技术路径优劣的广泛讨论。
在AIME2024数学基准测试中,DeepSeekR1以79.8%的成功率领先于OpenAI的o1推理模型。这一结果不仅展示了DeepSeekR1在处理复杂数学问题上的卓越能力,也反映了当前人工智能技术在特定领域的快速发展和进步。这表明,在数学推理任务上,DeepSeekR1已经达到了一个相当高的水平,其性能甚至超过了目前市场上较为成熟的人工智能系统。这样的进展无疑为未来的人工智能研究提供了新的方向,并且可能会激发更多关于如何进一步提高机器智能水平的讨论。
在标准化编码测试中,该选手展现了“专家级”的水平,在Codeforces上取得了2,029的Elo评分,超越了96.3%的对手。
ScaleAI采用了“人类最后的考验”(Humanity’s Final Exam)来评估大型AI模型,这些测试包含了来自数学、物理、生物、化学等领域的教授所提供的最具挑战性的问题,这些问题涵盖了最新的科研成果。
在评估了所有最新的AI模型之后,亚历山大·王不得不承认,DeepSeek的最新模型确实是表现最佳的,或者至少能与顶级的美国模型如o1旗鼓相当。
毫不夸张地说,DeepSeek在美国AI行业引发了一场地震,更引发了媒体的争相报道。几乎所有的主流媒体和科技媒体,都报道了中国AI模型超过美国这一爆炸新闻。
短短几天内,DeepSeek迅速攀升至苹果应用商店免费应用榜的第一位,超越了OpenAI的ChatGPT。
性能成本震撼巨头
实打实的测试对比结果显示,几乎所有的AI巨头、风投和技术人员都不得不承认,在大模型这一领域,DeepSeek至少已经可以与OpenAI相提并论。这表明中国在人工智能领域的技术水平已经迎头赶上,甚至在某些方面已经与美国持平。这样的成就无疑为中国在全球AI竞争中赢得了重要的一席之地。 这一进展不仅体现了中国科研团队在技术上的突破,也反映了国家在AI领域投入的巨大努力。从长远来看,这将有助于推动整个行业的进步,并为未来的技术创新奠定坚实的基础。同时,这也意味着国内外企业需要更加重视中国市场,以及中国企业在AI技术上的发展潜力。
微软首席执行官萨蒂亚·纳德拉在世界经济论坛上提到DeepSeek时表示:“DeepSeek开发的新模型令人瞩目,他们成功打造了一个开源模型,在推理过程中能够高效运行,并且在计算效率方面表现优异。我们必须要高度重视中国在人工智能领域的进展。”
中国AI不仅是性能卓越,更是经济实惠。
让众多硅谷AI巨头感到震惊和汗颜的是DeepSeek的低成本优势。R1模型每次查询的成本仅为每百万个token 0.14美元,相比之下,OpenAI的成本为7.50美元,使得DeepSeek的成本降低了98%。
DeepSeek仅用了两个月的时间,耗资不到600万美元便成功打造了大语言模型R1,而且他们采用的还是性能相对较弱的英伟达H800芯片。这不禁让人感叹,真可谓是“小米加步枪”,以极低的成本在短时间内取得了显著的成果。这样的成就不仅展示了技术团队的高效执行力,也反映了当前AI领域内算法优化的重要性。在硬件资源有限的情况下,软件层面的创新与突破显得尤为关键。这也为其他企业提供了宝贵的经验:在追求高性能计算的同时,不应忽视对现有资源的充分利用与算法上的精进。
这意呈着什么?打个比方,中国AI公司在驾驶普通轿车的情况下,竟然在弯道上超越了对手,在竞赛中超过了硅谷巨头们的超级跑车。
除了训练成本低廉,DeepSeek的团队组成也与硅谷诸多AI巨头大相径庭。
DeepSeek的创始人梁文峰在组建研究团队时,并没有选择那些拥有丰富行业经验的资深软件工程师,而是更倾向于招募来自北大、清华等顶尖学府的博士生。这些年轻人虽然在顶级学术期刊上发表了论文,并在国际学术会议上获得了奖项,但他们的实际工作经验相对较少。 这种做法体现了梁文峰对基础研究和理论创新的重视。尽管这些年轻的博士们可能缺乏实际项目管理或产品开发的经验,但他们深厚的学术背景和创新能力可能会为公司带来新的视角和技术突破。这表明DeepSeek可能更注重长远发展和技术积累,而不是短期的商业利益。然而,这也意味着公司在短期内可能需要投入更多资源来培养这些人才,以确保他们能够快速适应行业需求。这样的策略能否成功,还有待时间的检验。
“我们的核心技术岗位主要由今年或过去两三年毕业的人员担任,”梁文峰在2025年1月接受媒体采访时说道。这种招聘策略有助于营造一个开放协作的公司文化,研究人员能够充分利用丰富的计算资源进行各种创新研究。这与中国传统互联网公司形成了鲜明对比,在那些公司里,团队之间常常为了争夺资源而激烈竞争。
没有囤积顶级GPU,没有招揽资深AI人才,也没有高昂的运行成本,DeepSeek却能够推出顶尖的大模型,这让硅谷的AI巨头们感到十分沮丧。 这种现象引发了业界的广泛讨论。一方面,这表明在人工智能领域,技术实力和创新能力可能比资源投入更为关键。另一方面,这也暗示了现有大公司或许过于依赖资本和硬件优势,反而忽视了技术创新的核心价值。无论如何,DeepSeek的成功无疑为行业注入了一股新的活力,并促使人们重新思考AI领域的竞争格局和发展方向。
硅谷巨头陷入沮丧
被挑战的巨头们是怎么看待DeepSeek呢?
OpenAI的创始人兼首席执行官山姆·阿尔特曼在其个人社交媒体账号上发表了一番言论,似乎带有一丝酸味。“复刻那些已经被证实有效的模式相对简单,然而要探索那些尚未被发现的领域则充满了不确定性与挑战。”
该言论被普遍认为是对DeepSeek的隐晦批评,暗示中国的AI模型在创新方面仍有不足,只是沿用了已证实有效的现有方法。
PerplexityAI的首席执行官斯林尼瓦斯(Arvind Srinivas,印度籍)从市场影响的角度分析道:“DeepSeek在很大程度上模仿了OpenAI的GPT-3,并将其进行了开源。”
但他也赞叹了DeepSeek的快速步伐:“看到推理如此迅速地商品化,这有点疯狂。”
他表示,自己的团队会将DeepSeek R1的推理能力引入Perplexity Pro。
StabilityAI的创始人EmadMostaque表示,DeepSeek的发布给那些资金更为雄厚的竞争对手带来了巨大的压力。“你能够想象一个已经筹集了10亿美元的顶尖实验室,如今却因为无法超越DeepSeek而推迟了最新模型的发布吗?” 这种情况下,资金实力似乎不再是决定性的优势。尽管这些竞争对手可能拥有更多的资源,但技术上的突破仍然取决于创新能力和算法的先进性。这也凸显出在人工智能领域,持续的技术革新和研发能力才是保持竞争力的关键因素。
Meta AI首席科学家杨立昆(Yann LeCun,法国人)则强调中国人是依靠开源的优势取得成功。他在对DeepSeek的成功表示赞赏的同时强调,DeepSeek的成功并非意味着中国在AI领域超越美国,而是证明了开源模型正在超越闭源系统。
杨立昆表示,DeepSeek从开源研究和开源代码中受益匪浅,他们提出了新想法,并在他人工作的基础上进行创新。由于他们的工作是公开和开源的,所有人都能从中获益。这体现了开源研究和开源代码的力量。
他认为,DeepSeek的成功提现开源生态系统在推动AI技术进步中的重要性,表明通过共享和协作,开源模型能够实现快速创新和发展。
近日,Meta公司内部似乎并没有外界想象的那么平静。在过去的几天里,一个来自Meta员工的帖子在职场匿名平台TeamBlind上迅速走红。这位员工分享了关于公司内部的一些情况,引发了广泛关注和讨论。 这个匿名帖子揭示了一些Meta员工的真实感受和担忧,这与外界对这家科技巨头的一贯印象有所不同。它不仅反映了当前科技行业面临的挑战,还可能预示着整个行业未来的发展趋势。这个帖子之所以引起如此大的关注,是因为它提供了一个难得的机会,让公众能够窥见大公司内部运作的一个侧面,尤其是在当前快速变化的技术环境中,这样的信息显得尤为珍贵。
帖子称Meta内部因为DeepSeek的模型,现在已经进入恐慌模式,不仅是因为DeepSeek的优秀表现,更是因为极低的成本和团队组成。
由于DeepSeek-V3的问世,它在基准测试中的表现已使Llama4黯然失色。更令人惊讶的是,这一成就竟然出自一家中国公司,其训练预算仅为550万美元。目前,Meta的工程师们正在夜以继日地研究DeepSeek,企图掌握其所有可能的技术细节。这并非夸大其词。此外,管理层对GenAI研发部门的巨大开支感到忧虑。当该部门一位高管的年薪就超过了训练DeepSeek V3的总成本,而且类似级别的高管多达数十人时,他们如何向高层解释这些开支?
高效算法弯道超车
那么,DeepSeek是如何在计算能力明显较低且成本仅为零头的情况下,成功开发出能够与硅谷顶尖AI企业相媲美甚至超越其性能的大规模模型的呢?
美国的出口管制极大限制了中国科技公司在人工智能领域的竞争能力,使其难以采用“西方式”策略,即通过无限制地购买芯片和延长训练周期来获得优势。
因此,大多数中国企业倾向于聚焦于下游应用的开发,而不是自主研发模型。然而,DeepSeek最近的发布表明,另一条成功的路径是:革新AI模型的基础架构,并更有效地利用稀缺资源。
因为算力资源不足,DeepSeek不得不开发更高效的训练方法。
他们通过一系列工程技术优化了模型架构——包括定制化的芯片间通信方案、减少字段大小以节省内存,以及创新性地使用专家混合模型(Mixture-of-Experts)方法。这不仅展示了技术团队在细节上的精益求精,也体现了他们在资源整合方面的高超能力。很多方法本身并不新奇,但成功地将它们整合起来以生产出尖端模型是一项相当了不起的成就。 这种技术创新不仅推动了人工智能领域的发展,也为其他研究者提供了宝贵的参考案例。它证明了,在追求卓越的过程中,细节的打磨与整体的协同作用同样重要。这样的成果无疑会激励更多科研人员在各自的领域内探索和突破。
DeepSeek还在“多头潜在注意力”(Multi-head Latent Attention,MLA)和“专家混合模型”方面取得了重大进展,这些技术设计使DeepSeek的模型更具成本效益,训练所需的计算资源远少于竞争对手。事实上,据研究机构Epoch AI称,DeepSeek的最新模型仅使用了Meta Llama 3.1模型十分之一的计算资源。
中国AI研究者们达成了许多人认为难以企及的目标:开发出一个免费且开源的人工智能模型,该模型的表现甚至能与OpenAI最尖端的推理系统相匹敌或超越之。更引人注目的是,他们采用了一种独特的方法,使AI能够通过不断的尝试和错误进行自我学习,这一过程与人类的学习方式颇为相似。
DeepSeek-R1-Zero 是一个通过大规模强化学习训练的模型,无需经过监督微调这一初步步骤便展现出卓越的推理能力。这种创新的方法不仅简化了模型训练流程,还证明了在没有大量标注数据的情况下,人工智能系统仍然能够实现高水平的表现。 这样的进展令人振奋,因为它为未来的AI研究开辟了新的可能性。我们或许可以期待看到更多类似的模型,它们能够在更少的人工干预下达到甚至超越当前的性能水平。这不仅提升了效率,也降低了开发成本,使得更多的机构和个人能够利用这些先进的技术。不过,随之而来的是对算法透明度和可解释性的新要求,确保这些系统的行为能够被理解和信任将是未来的重要课题。
“强化学习”是一种通过试错来优化决策过程的方法。在这个过程中,模型在做出正确决策时得到正向反馈,而在犯错时则会收到负面反馈。值得注意的是,这种方法并不依赖于预先设定好的指导方针或规则,而是通过反复试验逐渐掌握最优策略。经过多次迭代后,系统能够学会根据以往的经验来调整其行为,从而逐步提升其表现水平。 这种技术的应用前景非常广阔,尤其在那些需要复杂决策制定的领域如自动驾驶汽车、游戏AI以及金融交易等。通过不断的学习与适应,强化学习使得机器能够在没有人类干预的情况下,自行发现解决问题的最佳途径。这不仅极大地提高了效率,也展示了人工智能在未来可能达到的高度自主性和智能化水平。同时,随着算法的不断进步,如何确保这些智能系统的决策过程透明且可解释,将成为未来研究的重要方向之一。
DeepSeek R1是AI发展的一个转折点,因为人类在训练中的参与最少。
与其他依赖于大量标注数据进行训练的模型不同,DeepSeekR1主要采用机械强化学习的方式进行学习——即通过不断的试验和获取反馈来解决各种问题。该模型甚至在未经过明确编程的情况下,自主发展出了自我验证和反思等复杂技能。
随着模型经历训练过程,它自然学会了为复杂问题分配更多的“思考时间”,并发展出捕捉自身错误的能力。研究人员强调了一个“顿悟时刻”,模型学会了重新评估其最初的问题解决方法——这是它没有被明确编程去做的事情。
开源模型广获赞赏
值得一提的是,DeepSeek乐于将其创新成果开放源代码,从而在全球AI研究领域赢得了更多的认可。
与专有模型不同,DeepSeek R1的代码和训练方法在MIT许可证下完全开源,这意味着任何人都可以获取、使用和修改该模型,没有任何限制。
对于众多中国人工智能企业而言,打造开源模型是超越西方同行的关键途径,因为这能够吸引更多的使用者和协作者,从而推动模型持续进化与发展。
在OpenAI逐渐封闭化的当下,DeepSeek的开源得到了AI从业人员的交口称赞。
英伟达高级研究员樊锦(Jim Fan)博士对DeepSeek无与伦比的透明度给予了高度评价,并明确表示这与OpenAI最初的愿景不谋而合。
樊锦强调,我们如今所处的时代,非美国公司已不再坚守OpenAI最初的愿景——即开放而先进的研究,以惠及每一个人。
樊锦指出了DeepSeek强化学习方法的重要性:“他们可能是第一个展示[强化学习]飞轮持续增长的开源软件项目。”
他还赞赏了DeepSeek直接公开“原始算法和matplotlib学习曲线”,而非行业内常见的炒作性声明。
科技创业者ArnaudBertrand指出,竞争性的开源模式的兴起可能会对OpenAI造成重大影响,因为这会削弱OpenAI向那些愿意为其服务付费的高端用户提供的独特价值,进而对其商业模式构成威胁。
这就好比有人推出了一款性能堪比iPhone的手机,但价格却仅为30美元,而不是1000美元。这种颠覆性的定价策略无疑将引发行业内的巨大震动。 这样的产品不仅挑战了现有高端智能手机市场的定价逻辑,同时也极大地降低了消费者享受尖端技术的门槛。如果这款手机能够成功打入市场,它或将重新定义我们对性价比的认知,并可能促使其他厂商调整其产品策略以应对这一冲击。
出口管制面临挑战
这对英伟达来说,DeepSeek的横空出世是一个利空因素。很多AI行业人士不禁开始思考另一个问题:
既然DeepSeek使用上一代芯片的缩减版就能够训练出顶级的大模型,那么科技巨头们是否还有必要继续大量投入购买英伟达的最新型GPU呢?这个问题值得深思。
众所周知,由于美国政府对AI芯片的出口限制,中国目前无法获得英伟达最顶级的高性能AI芯片。这导致H800成为A100芯片的一种受限版本,其性能有所降低。 这种禁运措施不仅影响了中国企业在人工智能领域的研发进度,还可能加速国内企业寻找替代方案的步伐。面对外部压力,中国企业可能会加大自主研发力度,推动国内半导体产业的发展。长远来看,这或许会成为中国科技自主创新的一个契机,尽管短期内会面临一些挑战。
与A100相比,H800在核心数量、频率和显存方面有所减少,其算力下降大约在10-30%之间。对于不需要顶级算力的应用场景,如中等规模的AI训练与推理任务,H800仍然是一个合适的选择。
H800的内存带宽被限制在1.5TB/s,而A100 80GB版本则能达到2TB/s,这将显著影响数据处理性能,特别是在深度学习任务中。
ScaleAI的亚历山大·王坚信,DeepSeek的实际芯片数量可能远超人们的想象。他公开表示,他认为DeepSeek至少拥有5万块H100芯片,而具体的数字他们则不会对外透露。
H100的算力是A100的六到七倍,这款售价3万美元起的顶级GPU已成为当前硅谷各大科技公司竞相追逐的焦点。
Meta和微软都已超额采购了15万块H100芯片,谷歌、甲骨文和亚马逊则各采购了5万块。马斯克的xAI公司更是部署了10万块H100芯片组成的超级计算机集群,专门用于训练其大语言模型Grok3。 从这些数据可以看出,科技巨头们对AI技术的投入力度之大,这不仅反映出当前AI领域的发展势头迅猛,也预示着未来几年内人工智能将在各行各业发挥更大的作用。特别值得一提的是,xAI公司在这一领域的投入尤其显著,显示出其在AI竞赛中的雄心壮志。巨头们纷纷加码AI硬件的采购,表明他们对未来AI市场充满信心,并且已经做好了充分准备,以期在未来的竞争中占据有利位置。
亚历山大·王进一步指出,未来中国的AI行业可能会遭遇更多的困难,“今后他们将受限于我们已施行的芯片及出口管控措施,将更难获得额外的芯片供应。”
他上周在《华盛顿邮报》购买了整版广告,写道“美国必须赢下这场AI战争!”