中国独一无二的DeepSeek:探寻AI领域的未来之路-大浪资讯

admin72025-02-12 00:16:15

中国独一无二的DeepSeek:探寻AI领域的未来之路

AI巨头的深度之路:揭秘中国独一无二的DeepSeek

   DeepSeek 风暴后,中国的大模型创业圈会发生什么样的变化?

中国独一无二的DeepSeek:探寻AI领域的未来之路

   近日来,笔者还与多位业内人士交流过,了解到当前国产大模型领域存在两种极端倾向:一种是过分乐观,热情高涨;另一种则是过于悲观,情绪低落。

   前者以积极融入DeepSeek生态的算力供应商和模型服务提供商,以及之前无法参与到大型模型“军备竞赛”中的开源受益者为代表,后者则以其他中国大型模型初创企业(通常称为“大模型六小虎”)和在过去两年内投资这些企业的风险投资公司为主,形成了一个“冰火两重天”的局面。

   据了解,在过去两年内投资了那些估值处于领先地位的大模型公司的部分风险投资团队,现在已经开始面临或正在接受来自公司内部的严格审查。主要质疑点依旧集中在几个方面。

   最近,DeepSeek以相对较低的成本成功训练出了一个非常强大的模型,这引起了业界的广泛关注。相比之下,一些已经融资了数十亿美元的大模型公司却似乎未能达到同样的成就。这种现象引发了人们对技术路线、资金使用效率以及科研管理等方面的深入思考。 低成本高效能的背后,可能是DeepSeek在技术研发策略上的独到之处,比如更高效的算法设计、更优化的数据利用方式或更精简的团队结构等。这些因素可能使得DeepSeek能够在资源有限的情况下取得突破性的进展。反观那些大型公司,虽然拥有雄厚的资金支持,但在项目管理和技术路径选择上可能存在一些问题,导致资源没有得到最有效的利用。 总之,DeepSeek的成功提醒我们,在人工智能领域,除了资金投入外,技术创新和合理的资源配置同样重要。未来,如何平衡资金使用与技术进步之间的关系,将是每个研究机构和企业都需要认真考虑的问题。

   “DeepSeek能够突破圈层限制,主要还是因为其技术革新具有足够的突破性。反观某些企业,连基础的大模型技术团队都尚未组建,这样的情况下,投资者为何还要投入资金呢?” 这种现象反映了当前市场上对于技术创新的重视程度。在人工智能领域,技术的先进性和创新性往往是决定一个项目能否成功的关键因素。没有坚实的技术基础,即使市场再火热,也难以获得长远的发展。这不仅要求企业在技术研发上持续投入,同时也提醒投资者在选择投资项目时要更加注重企业的核心竞争力和技术实力。

   “YYY同样拥有一支非常强大的人才团队,并且在训练大型基础模型方面积累了丰富的经验和不懈的追求,为何未能成为DeepSeek?他们依靠什么来支撑如此高的估值?”

   “在DeepSeek发布之后,谁还会关注大模型六小虎呢?未来还有哪几家有望上市?如果这些公司都没有上市的可能性,那么我们应该选择回购还是退出呢?”

   ……

   “为什么没有成为 DeepSeek”,以及“为什么中国只有一个 DeepSeek”,是几乎所有大模型从业者与 VC 从春节就开始求索的问题。这两个问题几乎可以涵盖了目前国内所有关于大模型创新的焦虑,也只有严肃探讨这两个问题,才能回答另一个更重要的问题:如何成为 DeepSeek?

   在春节期间发布的一篇文章《「DeepSeek现象」只是中国AI崛起的开始》中,我们已从中美AI创新对比的大角度试图向行业传达一个信息:中国AI需要有民族自豪感。而在这篇文章中,我们将结合过去四年中国大模型的发展历史,进一步深入探讨: 近年来,中国在人工智能领域取得了显著的进步,特别是在大模型的发展上。《「DeepSeek现象」只是中国AI崛起的开始》一文提到,中国AI领域的成就不仅体现了技术实力,也反映了国家对科技创新的高度重视。回顾过去四年,中国的大模型研究经历了从模仿到自主创新的过程,逐步在国际舞台上崭露头角。 随着技术的不断进步,中国AI产业展现出强大的生命力和创新能力。这不仅增强了国内市场的信心,也为全球科技合作提供了新的机遇。然而,面对未来的发展,中国AI仍需在核心技术突破、应用场景拓展以及伦理规范建设等方面持续努力。只有这样,中国才能在全球AI竞争中保持领先地位,真正实现可持续发展。

   中国是否缺少像 DeepSeek 这样的技术理想主义者?

   如果中国不缺乏这样的技术团队,那么这些团队是否已经被充分挖掘,并且得到了相应的社会系统性支持呢?如果没有,背后的原因又是什么呢? 目前看来,尽管中国在科技领域取得了显著进步,但仍有相当数量的技术人才未被充分利用。这背后的原因可能是多方面的,包括教育资源分配不均、企业对高端人才的需求与供给存在错配、以及科研成果转化机制不够完善等。 随着国家政策不断优化,相信未来会有更多措施出台来解决这些问题,从而更好地激发技术团队的潜力,推动科技进步和社会发展。

   作为一个从2020年GPT-3爆发以来就一直关注大模型发展的观察者,这篇文章无意于探讨如此宏大的主题,只是从第三方视角呈现一些可能与该话题相关的事实或观点。 自2020年GPT-3发布以来,人工智能领域经历了前所未有的发展。随着技术的进步,大模型不仅在学术界引发了广泛讨论,在商业应用上也展现出了巨大的潜力。然而,这些进展也带来了一系列挑战,比如数据隐私、算法偏见以及对就业市场的潜在影响。尽管这些问题尚未得到完全解决,但越来越多的研究者和企业开始意识到,只有通过多方合作,才能推动这一领域的健康发展。因此,未来的发展方向不仅需要技术上的突破,更需要政策制定者、研究机构和企业的共同努力,以确保技术进步能够惠及更广泛的社会群体。

   1、系统性错位

   2023 年之前,中国只有 4 家大模型公司:智谱、面壁、深言与聆心(后被智谱收购),且都来自清华;2023 年之后,大模型的创业公司增加到了十几家,从技术上看直接原因是 Llama 开源,但最根本的原因其实是,那时候所有人都认为:

   大模型的技术门槛虽高、但并非不可模仿。尤其基于已有的开源大模型,技术难度进一步降低,“技术无法构成商业壁垒”的论调甚嚣尘上。

   在这种集体共识的“统治”下,我们复盘 2023 年 ChatGPT 爆火后中国大模型创业的几个力量动态,就不难理解当前中国大模型创业中场的畸形现象:

   首先,由于整个市场对技术创新的敬畏之心变弱,2023 年 ChatGPT 大火后,中国的第一批大模型技术探路者中,只有智谱一家成为了资本的宠儿,最早突破 200 亿人民币估值大关、跻身大模型第一梯队。(月之暗面是 2023 年后成立的,故不算在其中)

   由清华自然语言处理实验室(THUNLP)走出的面壁智能和深言科技,在资本市场上的表现似乎不及后来崛起的新势力。 这两家公司虽然起步不错,但在当前的竞争环境中,它们在融资规模和市场关注度上略显逊色。这或许反映出新兴企业在技术和商业模式上的创新步伐更快,也提醒着老牌企业需要不断调整战略,以应对快速变化的市场环境。

   尤其是面壁智能(因为深言选择了聚焦产品),作为国内最早提出要做“平民版大模型”的公司,其技术愿景与创新方向与DeepSeek最为接近,甚至比DeepSeek还要早成立。然而,直到2024年年底完成了一笔3亿人民币的融资后,面壁智能的估值也才不到35亿人民币,这与第一梯队的200亿门槛相比,差距仍然十分明显。 这种现象引发了业界的深思。尽管面壁智能在技术和时间上都占有一定优势,但在资本市场上却未能获得与其潜力相匹配的认可。这或许反映出当前市场对于人工智能领域内不同公司的评估标准存在差异,也提醒相关企业需要在技术研发的同时,更加注重市场战略和商业模式的创新。

   据雷锋网AI科技评论在过去两年里与超过50位大模型投资人的交流得知,尽管智谱和面壁同样出自清华,拥有技术上的先发优势以及优秀的年轻技术人才,但两者之间的差距依然显著,主要原因是以下几个方面:

   一是清华学术派追基座模型的只押一家,因为“对教授创业持保留意见”;二是智谱的愿景更好理解,早期对外融资时说“对标 OpenAI”、VC 立刻就懂,但面壁由于一开始就强调底层模型训练效率优化,在热钱最多的 2023 年一度被认为是一家类似潞晨、硅基的“AI Infra”公司。

   面壁智能在2023年未能获得大量资金,因此无法投资于基座大模型。通过类似DeepSeekV3这样的基座大模型训练,可以直观地感受到高效训练的重要性。然而,2024年公司只能转向端侧小模型,而这些小模型在展示“高效训练”方面的效果远不如DeepSeekV3等项目显著。

   2022 年、2023 年在融资时,面壁就打出“高效训练”的旗号去融资,但几乎在 VC 那吃遍了闭门羹。

   其次,在当前缺乏对技术敬畏之心的大环境下,2023年中国的大模型浪潮虽然已经到来,但AI科技风险投资并没有真正沉下心来深入研究AGI技术。相反,为了快速获得回报,这些资金更多地流向了那些曾经取得成功的连续创业者,即便这些团队之前从未有过任何大模型的研发经验。 这种现象反映出当前投资界对于前沿科技的理解与投入还不够成熟,更多的还是倾向于追逐短期利润而非长期发展。这不仅可能导致资源分配的不合理,也可能影响中国在人工智能领域的长远竞争力。因此,如何引导投资更加理性、科学地支持科技创新,成为了一个亟待解决的问题。

   这当中,最典型的代表是王慧文的光年之外与王小川的百川智能。

   当前估值超过200亿人民币的大模型公司中,仅有智谱唐杰、月之暗面杨植麟等人从2020年大模型尚未流行之时就开始了技术探索。而百川智能、MiniMax与阶跃星辰的团队则大多是在2023年之后才加入这一领域。 可以看出,在大模型领域,早期的投入与积累对于公司的发展具有显著的优势。智谱和月之暗面凭借其先发优势,在技术和市场方面都占据了有利地位。相比之下,后起之秀如百川智能等虽然起步较晚,但凭借新兴技术和快速发展的市场环境,依然有机会后来居上,展现出强大的竞争力。

   譬如,MiniMax的创始人闫俊杰专长于计算机视觉领域,而其最初的大模型研究主要集中在语言智能上(多模态属于另一个讨论范畴)。尽管如此,MiniMax最初引起广泛关注是因为其产品Glow,而非其底层大模型技术获得了投资人的认可。这表明了另一个值得关注的角度,而且据接近闫俊杰的人透露,他被评价为“极具技术追求”。

   DeepSeek 的研发团队同样是从 0 开始学习大模型技术,苦读论文、死磕实验,所以没有任何迹象表明一个从前未曾训练过大模型的团队无法通过在 2023 年之后的努力学习来补足技术的短板,但从过去两年的行业发展来看,百川智能在基座模型上的升级并不频繁,重心转向医疗行业大模型。

   由于不训练视频等大模型,百川的研发成本较其他公司更低,现金流充裕——但这只对百川有利,对整个大模型行业的发展是没有贡献的。

   在资源有限的情况下,如果缺乏技术能力的团队占据了大部分资本资源,而拥有技术能力的团队却只能分到少量资本资源,这种资金与人才的系统性错配将不可避免地导致令人惋惜的结果,并且难以孕育出光明的未来。

   如果AGI大模型技术确实已无进一步提升空间,且各家公司之间的技术差距也逐渐缩小,那么在互联网时代,拼资源、拼资本的策略或许还能让企业分得一杯羹。然而,那些对技术持有敬畏之心的创业者依然保持着清晰的判断力,他们依旧能够发现当前大模型底层算法与架构在训练与推理过程中存在的诸多不足。这些创业者深知,AGI领域仍然存在许多具体而复杂的问题亟待解决。 这种态度表明,在技术快速发展的今天,保持警觉和持续探索的精神仍然是成功的关键。即使技术趋于成熟,细微之处的优化与创新仍能带来巨大的价值。这也提醒我们,对于任何领域的进步而言,不断追求卓越的态度永远不过时。

   也就是说,底层技术的持续创新能力依然是大模型公司的重要护城河,而传统的纯拼资源的互联网方法论在当前中国的环境下可能并不完全适用。不过,这种观点可能会遇到一些挑战,因为根据观察,在2023年和2024年期间,大模型领域的投资热度依然很高,甚至出现了像“ClubDeal”这样新的投资模式。 这种现象表明,尽管底层技术创新至关重要,资本的力量和新的投资策略也在不断塑造着行业的发展方向。这也提醒我们,在关注技术创新的同时,也不能忽视市场动态和资本环境的变化,这对于全面理解中国大模型领域的发展趋势同样重要。

   在过去两年的大模型发展中,一个不愿意学习技术的投资者,可能比一个不願意學習技術的研发人员造成的负面影响还要更大。

   繁荣时期终将过去。一旦潮水退去,谁在裸泳也将显而易见。

   2、AGI 军团可遇不可求

   市场对技术缺乏敬畏之心的另一表现是:为了适应市场需求,(同时也有突围大厂竞争的考量),过去两年里,中国的大型模型创业公司也把关注点从长远的通用人工智能转向了短期内的盈利能力和产品的优化上。

   这一打法的变化也是因为上述行业的误判,以为大模型再无创新之处。坚定追求 AGI 的创业者必须同时兼顾商业与技术,而对 AGI 产生怀疑或彻底被市场声音迷惑的团队则要么放弃预训练、全面转向 C 端应用或干脆只基于开源模型微调行业大模型。

   从GPT-3到ChatGPT的问世耗时两年半,但市场似乎遵循着一个“规律”:国内的大模型从基础到商业化仅需两年时间。尽管部分大模型公司能够同时推进“L2”和“L4”两个阶段,但在人才与研究资源的投入方面,没有一家公司能像DeepSeek那样对AGI如此专注。

   2023 年上半年融资战刚开始时,业内的一个分析是:中国的 VC 经过上一代 AI 公司的“洗礼”,对大模型公司的商业化耐心已经从 5 年、8 年缩短到 3 年内。——这或许是中国大模型公司的普遍困境。

   众所周知:DeepSeek 专注 AGI 研究,是依托梁文锋个人与幻方量化的原有储备资金,没有向外融资。“自己有钱,所以不需要听外界的,自己想干什么就干什么。”——这也是众多大模型公司对 DeepSeek 羡慕的地方。

   近日,原本对AGI持批评态度的朱啸虎再次发声,表示由于DeepSeek愿意投资AGI领域的企业,这使得他改变了看法。可以说,DeepSeek凭借其卓越的技术实力影响了风险投资界的判断。然而,更为严峻的现实是:许多具备强大创新潜力的团队可能因融资困难而在黎明前倒下。

   “商业化思维”不仅体现在某些科技风险投资(VC)的行为模式里,实际上也在选择研发人才的过程中有所体现。例如,越来越多的企业在招聘科研人员时,更倾向于那些具有市场意识和商业头脑的人才,而不仅仅是学术成就突出的研究者。这表明,在科技创新和产品研发的背后,企业越来越重视如何让这些成果转化为经济效益,从而推动企业的长远发展。 这种趋势反映了当前社会对技术与商业结合的需求日益增加。企业需要既懂技术又了解市场的复合型人才来应对快速变化的市场环境,以确保科技成果能够有效地转化为实际产品和服务,最终实现商业价值。这也意味着未来的研发人才不仅要在专业领域内有深厚造诣,还应具备一定的商业敏感性和市场洞察力。

   根据猎头的反馈,2024年中国在人才引进方面投入最大的公司无疑是字节跳动。大型企业和创业团队之间的差距正在扩大,而大型模型领域的人才从创业团队转向大厂已成为过去一年的趋势。例如,据AI科技评论了解,DeepSeek在寻找多位在NLP、多模态及强化学习领域的人才时,最终这些优秀人才选择了加入字节跳动,而非DeepSeek。

   据知情猎头透露,DeepSeek在初期也试图从海外的谷歌、Meta、OpenAI等团队挖掘顶尖人才,但未能如愿,因此只好转而培养自己的团队。

   AGI的发展不仅需要资金支持,还需要一群坚定的技术理想主义者以及卓越的组织文化。尽管DeepSeek的成功可能难以重现,但其从V2、V3到R1、R1-Zero的技术成果展示了其在资金投入、人才与理想追求及组织文化建设方面的显著优势。

   在 DeepSeek 之前,“北九坤、南幻方”就已经在金融量化领域鼎鼎有名,而量化行业对技术人才的高要求也是众所周知的,基本以 Top2 高校、信息学竞赛金牌选手为基准,团队规模往往不大,但能力超强。据 AI 科技评论了解,2024 年上半年 DeepSeek 的团队规模也只有 40 多人,且大多数是原幻方 Top2 的技术高手。

   延续原有幻方的高标准,DeepSeek在招聘方面始终保持极高的门槛。例如,自2024年年中起,他们就开始寻找在多模态和强化学习领域的大牛,但经过大半年的努力,相关职位依旧空缺,坚持宁缺毋滥的原则。R1项目爆火之后,虽然收到的简历数量激增,但据内部人士透露,“真正合适的人才并不多”。

   DeepSeek的内部文化同样十分扁平化。根据AI科技评论的了解,在北京和杭州办公室,公司都只有一位领导:DeepSeek的创始人梁文锋。“梁文锋以下的所有员工都是职业经理人。”

   此外,梁文锋的个人特色十分突出:他坚信技术的力量,对AGI充满浓厚的兴趣和探索精神,并且非常勤奋努力。熟悉他的人都知道,梁文锋讲话极为缓慢,每句话都需要深思熟虑许久才会说出,而且言辞简练。尽管话语不多,但他总能一语中的,直击要害。

   DeepSeek的团队文化与宇树、Momenta等公司颇为相似:公司的创始人都是技术狂热者,对技术怀有深深的敬意和浓厚的好奇心;同时,在管理上他们倾向于集权,但企业文化却保持着扁平化的特点。这使得他们在面对技术挑战时,能够迅速从高层调集资源,实现高效的沟通与协作。这种独特的管理模式不仅促进了技术创新,还确保了公司在遇到难题时能够迅速做出反应,从而在激烈的市场竞争中占据优势。 这种以技术为核心驱动力,并且能够在遇到技术障碍时迅速响应的企业文化,无疑为DeepSeek等公司的发展注入了强大的动力。这也反映了当前科技领域的一个趋势,即企业需要依靠深厚的技术积累和高效的内部协作来应对不断变化的市场环境。

   同时,宇树与 DeepSeek 在招人时也有一套自己的标准,与市面上千篇一律的面试套路很不同。有兴趣的读者可以去了解下。

   DeepSeek的梁文锋很早就开始研究如何以更低的成本训练出更强大的模型,当时行业内大多数人还无法理解。同样地,宇树的王兴兴也在大家尚未认识到机器狗的价值时就开始研发四足机器狗。Momenta的曹旭东则是在自动驾驶行业普遍聚焦于L4时,就已经同时开展L2和L4的研发,采取双管齐下的策略。

   敢于挑战主流的创业团队需要拥有一种强烈的反叛精神。根据AI科技评论与多位投资人的交流,这种“反叛”往往容易被视为“年轻人群体”的特质,但在我看来,真正的反叛精神源自于团队对所要解决的社会问题有深刻的理解和判断,以及对自身技术实力的高度自信。他们坚信自己所选择的方向代表着未来,并且能够创造巨大的价值。

   3、创新的品味

   在V2发起价格战之后,梁文锋在接受《暗涌》的访谈时表示:“在美国每天发生的众多创新活动中,这仅仅是一个普通的案例。” 这种评价反映了梁文锋对当前技术创新速度和市场竞争激烈程度的看法。在他看来,尽管V2的技术成果可能在市场上引起了一定的震动,但在全球创新的大背景下,它只是众多创新中的一个普通例子。这样的评价也暗示了技术创新的常态性和持续性,同时也提醒人们不应过度夸大单一技术突破的重要性。

   V3 与 R1 之后,梁文锋暂时还没有对外发过声,但对 DeepSeek 与梁文锋来说,在完全实现 AGI 之前,或许 V3 与 R1 的创新也只是“非常普通的一个”。——这并非否定后两者的突破与可取之处,而是想突出高追求的团队往往会将 100 分的事情说成 80 分,并永远追求附加分。

   R1 发布,业内的一位资深强化学习学者向 AI 科技评论分析时表示:“用纯 RL 算法代替 RL+SFT 的范式后,我觉得 AGI 的实现最晚三年。”

   Sam Altman 说 2025 年 AI 就会超越人类,马斯克也说 AGI 最晚在 2026 年就可以实现。——在各种“AGI时间点”的预言上,虽然我们很难判断具体会在什么时候发生,但可以感受到这样的大趋势正在发生。

   趋势已知,与此同时,DeepSeek的崛起已经让许多人认识到至少两个重要事实:一是AGI技术尚未达到其极限,二是中国的科研团队具备引领全球AGI创新的实力。相较于沉浸在DeepSeek的成功之中,我们更应关注如何进一步推动中国在AGI领域的全面发展。 未来的发展方向应该更加注重基础理论的研究与突破,同时加强跨学科的合作,促进产学研紧密结合。此外,政府和企业应加大投入力度,提供更多的资金支持和政策扶持,为科研人员创造良好的研究环境。只有这样,中国才能在全球AGI竞争中保持领先地位,并为人类社会带来更多的福祉。 通过这些措施,相信中国不仅能在AGI领域取得更多突破,还能为世界科技进步贡献更多的智慧和力量。

   在过去的半个月,DeepSeek 的风暴让大厂、创业公司、算力厂商、投资人等对 AGI 发展的认知都产生了新的变化。一些过去被忽视的大象般的问题重新得到重视,同时一些过去的陈旧看法也被颠覆。但一致的变化是:所有人都意识到,在现阶段,AGI 的实现仍需要理想主义。

   相比预测OpenAI或DeepSeek下一步的行动,更关键的是推断出实现AGI所需解决的技术难题。换句话说,创新比模仿更为重要。

   事实上,根据过去一年AI科技评论的访谈,除了DeepSeek,国内还有许多AI人才在持续创新,不断提出新的解决方案以应对长期未解决的难题。仅列举一两个例子:

   香港大学计算与数据科学研究院院长马毅教授在过去两年一直指出:目前依靠高算力进行训练的大模型所掌握的是知识,而非真正的智能。不同于深度学习的黑盒特性,马毅教授的团队一直专注于研发可解释和可控制的人工智能算法与框架(即白盒理论)。

   在CNCC2024会议上,智谱唐杰讨论了多模态技术的未来发展。自2021年起,智谱团队便开始研究多模态大模型。据智谱团队透露,在初期探索过程中,他们遇到了类似挑战:当文本、图像、语音和视频等多种模态数据同时输入到训练大模型时,一种模态的数据似乎会抑制另一种模态的知识或智能。尽管多模态技术前景广阔,但如何改进跨模态数据对齐、采集高质量数据,以及提升多模态模型的常识与推理能力等方面,依然存在很大的研究空间。

   根据2024年3月与面壁团队多位创始成员的交流,当前主流的大模型架构仍然面临一些关键挑战,使得它们难以接近通用人工智能(AGI)。这些问题包括经验学习与空间记忆等能力。比如,人类能够通过反复练习提高技能水平,或是快速适应新环境,并将已有的认知应用到新的情境中。然而,目前基于Transformer架构的模型在这些方面表现不佳。 这种局限性表明,尽管我们在AI技术上取得了显著进步,但距离实现真正的通用人工智能还有很长的路要走。我们需要进一步探索和开发新的模型架构或改进现有架构,以更好地模拟人类的学习和记忆过程。只有这样,我们才能使AI系统具备更广泛的应用能力和更高的智能水平。

   随着具身智能技术的进步,未来的AGI(人工通用智能)很可能会自然地分化为云端AGI和端侧AGI两大类。端侧AGI指的是那些能够感知环境并执行高级推理,还能根据这些推理作出复杂多步骤决策的模型。当前流行的具身大小脑模型正是朝着这个方向发展,但在这个过程中仍然存在诸多挑战。要克服这些难题,除了需要大量的资源投入外,还需要强大的技术实力和明确的技术愿景。

   o1发布后,谷歌的Gemini团队近期宣布已经完成了新一代的基础模型,并且已经开始对一小部分用户进行封闭测试。这一举动表明大模型领域的发展趋势正逐渐从单纯的数据训练转向更加复杂的推理能力提升。这不仅反映了技术进步的需求,也预示着未来人工智能应用将在更多复杂场景中展现出更强大的智能水平。随着这类高级模型逐步走向实用化,我们有理由期待它们在解决现实世界问题上能够发挥更大的作用。

   尽管在2023年,谷歌因受到OpenAI的冲击而导致股价下跌,但如果我们回顾2020年6月至2022年间谷歌在大模型技术方面的进展,可以发现谷歌采取了一种自下而上的策略,逐步构建了从底层算力、架构到上层算法的完整体系。这种稳健的技术布局可能是谷歌后来推出Gemini模型时能够迅速发力的重要原因。 这段内容强调了谷歌在大模型技术研发上的长期投入与战略规划的重要性。它表明,即便面临外部竞争压力,强大的技术基础和前瞻性的战略布局仍然能够在关键时刻发挥关键作用。这也提醒其他科技公司,不应只关注短期市场表现,而忽视了长期技术和基础设施建设的价值。

   根据DeepSeek的技术披露,其研究大模型的路径同样是从底层的万卡集群、HAI框架开始,逐步向上贯通,构建出一个环环相扣的技术体系。这种自下而上的开发模式不仅显示了技术团队对底层架构的深刻理解,也表明了其在技术创新方面的决心与能力。这样的技术路径选择,无疑为DeepSeek在未来竞争激烈的AI领域中奠定了坚实的基础。

   对权威保持审慎态度、始终从问题核心逆向思考,并坚持创新,才能把握趋势。短期内的快速收益可能会青睐某些幸运儿,但从长远来看,资源应当流向那些擅长高效利用资源的团队。

   希望 2025 年,中国不再只有一个 DeepSeek。