人工智能竞赛：是一场所有人激烈角逐，最终谷歌夺冠的数字角力场吗？

admin752025-03-25 12:31:24

Gemini的进阶之路：Google在AI领域的崛起与挑战

作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com

2016年，谷歌CEO桑达尔·皮查伊在担任CEO仅几个月后，便宣布谷歌将转型为“AI优先”企业，这一决策体现了谷歌对人工智能未来发展的坚定信念。2017年，谷歌的研究团队发表了具有里程碑意义的论文《Attention Is All You Need》，提出了Transformer这一新的网络架构，它后来成为了生成式AI技术的基石。

然而，到了2022年底，ChatGPT的突然崛起让谷歌感到了前所未有的压力。讽刺的是，谷歌早在两年前就宣布了类似技术LaMDA，却未能及时推向市场。面对这种突如其来的竞争，皮查伊甚至邀请了联合创始人拉里·佩奇和谢尔盖·布林回归，共同审视公司的AI战略。

在ChatGPT推出后的几个月，谷歌迅速推出了自己的聊天机器人Bard（后更名为Gemini）。为了追赶对手，谷歌为Gemini添加了大量新功能，试图弥补与OpenAI的差距。尽管Gemini曾因生成争议图像而下线，但谷歌通过持续改进，成功将Gemini应用团队转移到DeepMind部门，推动了人工智能业务的快速发展，几乎在所有方面都追赶上了OpenAI。

值得注意的是，各大AI巨头似乎都在朝着相似的技术路线发展，如开发AI Agent、深度搜索、轻量化模型等。这种趋同性可能表明整个行业正在形成某种共识，而谷歌正努力在共识中脱颖而出。

Gemini的革新：从图像编辑到开源模型

就在苹果宣称其更智能的AI版Siri只是噱头的同一时期，Gemini推出了多项令人瞩目的更新。谷歌的Gemini 2.0 Flash模型实现了用户通过自然语言直接编辑图片的功能，其精确度和灵活性达到了新的高度。此前曾因争议而停用的图像生成功能，如今已成为Gemini的一大亮点。

用户可以精确指导AI仅修改图像中指定的部分，并能在同一图像上进行多次精确修改而不会导致风格出现大幅偏差。尽管Gemini 2.0 Flash目前还不能达到100%的一致性和准确性，但它无疑为用户提供了创造有趣、有用内容的强大工具。

Google DeepMind的CEO Demis Hassabis：从技术奇才到长发男子

上周，谷歌还推出了新的多模态模型Gemma 3，并对外开放了模型权重，允许在遵守规定的情况下用于商业用途。Gemma 3的Elo评分达到了1338分，相当于DeepSeek R1模型（1363分）的98%，但只需要一张H100显卡即可达到这一水平。谷歌宣称Gemma 3是“能在单张GPU或TPU上运行的最强大模型”。

Gemma 3的上下文窗口从先前的8192个token扩展至128000，基于Gemini 2.0基础架构的Gemma 3是一款多模态模型，能够处理文本、高分辨率图像以及视频。这些技术指标显示了谷歌在AI基础模型领域的持续突破。

搜索与AI的深度融合：个性化成为关键

显然，谷歌在许多领域都能持续创新，如Gemini，或者看看Waymo的无人驾驶汽车就知道。现在的问题是，谷歌能否在自己的核心产品和主营业务上进行创新？微软的AI战略很大程度上依赖于与OpenAI的合作，而苹果在AI领域似乎完全迷失方向。

现在，谷歌一方面在搜索中加入了Gemini的AI功能，另一方面又在Gemini中强化了搜索能力，直接切入OpenAI试图抢占的交汇点。谷歌最近发布的一系列公告，许多都与搜索与AI语言模型的融合有关，看起来像是在追赶ChatGPT等厂商早已推出的AI搜索功能，但谷歌试图达到更高水平。

从数字世界迈向物理世界：Gemini Robotics的野心

谷歌还在尝试将Gemini应用于物理世界。DeepMind最近推出了两个新的模型，旨在帮助机器人更好地执行物理世界的任务。第一个是视觉-语言-动作模型Gemini Robotics，让机器人即使没有接受过相关训练，也能够理解新情况。

Gemini Robotics基于Gemini 2.0构建，结合了Gemini的多模态理解能力，并加入了物理动作作为新的模态。DeepMind在演示视频中展示了搭载Gemini Robotics的机器人，这些机器人能听懂人说的指令并做出相应动作：机械臂能折纸、递蔬菜、小心地把眼镜放进盒子里，还能完成其他各种任务。

Google的核心优势：生态、资源与底蕴

谷歌追赶OpenAI的表现到目前为止还不错，Gemini 2.0 Pro和Flash模型确实非常出色。深度研究功能做得相当好，上下文窗口大小在业界仍然是领先的，与搜索、Gmail、Google办公套件、Google Meet、Android等的整合也在进行中。

谷歌还把推理模型整合到了更多日常应用中，包括日历、笔记、任务和照片。这使得Gemini可以执行更为复杂的任务，比如谷歌举例的：“在YouTube上找一个简单的饼干食谱，把配料添加到我的购物清单中，然后帮我找附近还开门的杂货店。”

皮查伊的愿景：5亿人使用Gemini

皮查伊曾在公司年终战略会议表示：“纵观历史，你不一定要成为第一个，但你必须有良好的执行力，真正打造出同类最佳的产品。我认为这就是2025年的关键所在。”他希望到2025年底有5亿人使用Gemini，此外还有Project Astra这样的通用Agent项目在酝酿当中。

谷歌本来有潜力成为像ChatGPT这样的对话式AI的市场领导者，但当时没能把握住这个机会。现在，谷歌所能做的就是继续推进这项服务，吸引更多用户来使用。

在这场AI竞赛中，谷歌用Gemini的亮眼表现证明了自己依然是绝对的主力选手，而且底子依然足够厚，正在展示出赢得这场比赛的实力和决心。

点个“爱心”，再走吧

谷歌微软疯狂人工智能网络信息知名企业 openai deepmind"/>

随机文章

侧栏广告位