马斯克研发的超级智能 Grok 3 居然答错了这道简单的日期题目?
超级智能 Grok 3 失灵?马斯克最新研发的 AI 也有记忆模糊时刻?
2月19日消息,昨天马斯克及其xAI团队在直播中正式发布了Grok3,此前马斯克通过持续的预热宣传,将外界对Grok3的期待值推向了前所未有的高度。马斯克称Grok3为“语言理解与生成的革命性突破”,然而其实际表现似乎未能完全匹配这一赞誉。
注意到,在发布会上,马斯克宣布Grok3在数学、科学与编程的基准测试中已经超越了所有主流模型,并计划将其应用于SpaceX的火星任务计算。他甚至大胆预测,未来三年内将实现诺贝尔奖级别的突破。 这一声明无疑再次展现了马斯克对未来科技发展的乐观态度。尽管Grok3的卓越表现令人振奋,但将其应用于实际任务尤其是如此复杂的火星任务时,仍需经过严格的验证与测试。而关于诺贝尔奖级别的突破,这不仅需要技术上的飞跃,还需要跨学科的深度合作以及时间的考验。无论如何,这样的创新尝试无疑为人工智能领域的发展注入了新的活力。
但 Grok 3 的实际测试表现却让人大跌眼镜。发布后,一些媒体测试了最新的 Beta 版 Grok 3,并提出了那个经典的用来刁难大模型的问题:“9.11 与 9.9 哪个大?”遗憾的是,号称目前最聪明的 Grok 3,仍然无法正确回答这个问题,被网友戏称为“天才不愿意回答简单问题”。
此外,在xAI发布会的直播过程中,Grok3在分析游戏《流放之路2》的职业与升华效果时,提供了许多不准确的信息,而马斯克未能察觉到这些显而易见的错误。
尽管在官方 PPT 中,Grok3 在大模型竞技场 Chatbot Arena 中看似“遥遥领先”,但实际上其与 DeepSeek R1 和 GPT4.0 的差距仅为 1% 到 2%。
马斯克在发布会上表示,Grok3采用了超过20万块H100芯片进行训练,累计训练时间达到了两亿小时。相比之下,DeepSeekV3只用了2000块H800芯片训练两个月,但其性能与Grok3相当。这说明,随着模型规模的不断增大,性能提升的边际效益已经变得明显。
值得一提的是,马斯克在社交媒体上透露,目前的Grok3版本只是测试版,完整版预计在未来几个月内推出。他同时鼓励用户积极提供使用过程中遇到的问题和反馈。 这一消息无疑让许多科技爱好者感到兴奋。从马斯克的表态来看,他对Grok3寄予厚望,认为其拥有巨大的潜力。邀请用户反馈使用问题不仅有助于改进产品,也显示出开发团队愿意倾听用户声音的态度。这将有助于提升用户体验,使产品更加完善。