人工智能竞赛:是一场所有人激烈角逐,最终谷歌夺冠的数字角力场吗?

admin72025-03-25 12:31:24

Gemini的进阶之路:Google在AI领域的崛起与挑战

作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com


2016年,谷歌CEO桑达尔·皮查伊在担任CEO仅几个月后,便宣布谷歌将转型为“AI优先”企业,这一决策体现了谷歌对人工智能未来发展的坚定信念。2017年,谷歌的研究团队发表了具有里程碑意义的论文《Attention Is All You Need》,提出了Transformer这一新的网络架构,它后来成为了生成式AI技术的基石。

然而,到了2022年底,ChatGPT的突然崛起让谷歌感到了前所未有的压力。讽刺的是,谷歌早在两年前就宣布了类似技术LaMDA,却未能及时推向市场。面对这种突如其来的竞争,皮查伊甚至邀请了联合创始人拉里·佩奇和谢尔盖·布林回归,共同审视公司的AI战略。

在ChatGPT推出后的几个月,谷歌迅速推出了自己的聊天机器人Bard(后更名为Gemini)。为了追赶对手,谷歌为Gemini添加了大量新功能,试图弥补与OpenAI的差距。尽管Gemini曾因生成争议图像而下线,但谷歌通过持续改进,成功将Gemini应用团队转移到DeepMind部门,推动了人工智能业务的快速发展,几乎在所有方面都追赶上了OpenAI。

值得注意的是,各大AI巨头似乎都在朝着相似的技术路线发展,如开发AI Agent、深度搜索、轻量化模型等。这种趋同性可能表明整个行业正在形成某种共识,而谷歌正努力在共识中脱颖而出。


Gemini的革新:从图像编辑到开源模型

就在苹果宣称其更智能的AI版Siri只是噱头的同一时期,Gemini推出了多项令人瞩目的更新。谷歌的Gemini 2.0 Flash模型实现了用户通过自然语言直接编辑图片的功能,其精确度和灵活性达到了新的高度。此前曾因争议而停用的图像生成功能,如今已成为Gemini的一大亮点。

用户可以精确指导AI仅修改图像中指定的部分,并能在同一图像上进行多次精确修改而不会导致风格出现大幅偏差。尽管Gemini 2.0 Flash目前还不能达到100%的一致性和准确性,但它无疑为用户提供了创造有趣、有用内容的强大工具。


Google DeepMind的CEO Demis Hassabis:从技术奇才到长发男子

上周,谷歌还推出了新的多模态模型Gemma 3,并对外开放了模型权重,允许在遵守规定的情况下用于商业用途。Gemma 3的Elo评分达到了1338分,相当于DeepSeek R1模型(1363分)的98%,但只需要一张H100显卡即可达到这一水平。谷歌宣称Gemma 3是“能在单张GPU或TPU上运行的最强大模型”。

Gemma 3的上下文窗口从先前的8192个token扩展至128000,基于Gemini 2.0基础架构的Gemma 3是一款多模态模型,能够处理文本、高分辨率图像以及视频。这些技术指标显示了谷歌在AI基础模型领域的持续突破。


搜索与AI的深度融合:个性化成为关键

显然,谷歌在许多领域都能持续创新,如Gemini,或者看看Waymo的无人驾驶汽车就知道。现在的问题是,谷歌能否在自己的核心产品和主营业务上进行创新?微软的AI战略很大程度上依赖于与OpenAI的合作,而苹果在AI领域似乎完全迷失方向。

现在,谷歌一方面在搜索中加入了Gemini的AI功能,另一方面又在Gemini中强化了搜索能力,直接切入OpenAI试图抢占的交汇点。谷歌最近发布的一系列公告,许多都与搜索与AI语言模型的融合有关,看起来像是在追赶ChatGPT等厂商早已推出的AI搜索功能,但谷歌试图达到更高水平。


从数字世界迈向物理世界:Gemini Robotics的野心

谷歌还在尝试将Gemini应用于物理世界。DeepMind最近推出了两个新的模型,旨在帮助机器人更好地执行物理世界的任务。第一个是视觉-语言-动作模型Gemini Robotics,让机器人即使没有接受过相关训练,也能够理解新情况。

Gemini Robotics基于Gemini 2.0构建,结合了Gemini的多模态理解能力,并加入了物理动作作为新的模态。DeepMind在演示视频中展示了搭载Gemini Robotics的机器人,这些机器人能听懂人说的指令并做出相应动作:机械臂能折纸、递蔬菜、小心地把眼镜放进盒子里,还能完成其他各种任务。


Google的核心优势:生态、资源与底蕴

谷歌追赶OpenAI的表现到目前为止还不错,Gemini 2.0 Pro和Flash模型确实非常出色。深度研究功能做得相当好,上下文窗口大小在业界仍然是领先的,与搜索、Gmail、Google办公套件、Google Meet、Android等的整合也在进行中。

谷歌还把推理模型整合到了更多日常应用中,包括日历、笔记、任务和照片。这使得Gemini可以执行更为复杂的任务,比如谷歌举例的:“在YouTube上找一个简单的饼干食谱,把配料添加到我的购物清单中,然后帮我找附近还开门的杂货店。”


皮查伊的愿景:5亿人使用Gemini

皮查伊曾在公司年终战略会议表示:“纵观历史,你不一定要成为第一个,但你必须有良好的执行力,真正打造出同类最佳的产品。我认为这就是2025年的关键所在。”他希望到2025年底有5亿人使用Gemini,此外还有Project Astra这样的通用Agent项目在酝酿当中。

谷歌本来有潜力成为像ChatGPT这样的对话式AI的市场领导者,但当时没能把握住这个机会。现在,谷歌所能做的就是继续推进这项服务,吸引更多用户来使用。


在这场AI竞赛中,谷歌用Gemini的亮眼表现证明了自己依然是绝对的主力选手,而且底子依然足够厚,正在展示出赢得这场比赛的实力和决心。


点个“爱心”,再走吧