《超级马里奥兄弟》AI挑战赛:Claude 3.7操控技艺高超,推理模型略显逊色 —— 大浪快讯

admin492025-03-04 15:43:48

《超级马力欧兄弟》AI挑战赛:揭秘人工智能在经典游戏中的表现

大浪资讯(3月4日)——加利福尼亚大学圣地亚哥分校的Hao人工智能实验室(Hao AI Lab)最近进行了一项引人注目的研究,他们将人工智能(AI)技术融入了经典游戏《超级马力欧兄弟》中,旨在评估AI在游戏环境中的性能。以下是这项独特研究的详细报道。

AI在《超级马力欧兄弟》中的表现大比拼

在上周五的研究活动中,Hao AI Lab将AI引入了《超级马力欧兄弟》这款经典游戏中,以观察其性能表现。结果显示,在众多参与测试的AI模型中,Anthropic的Claude 3.7脱颖而出,其表现优于Claude 3.5。然而,谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则未能达到预期效果。

游戏模拟器与AI的巧妙结合

值得注意的是,此次实验并非直接在1985年发布的原始版本《超级马力欧兄弟》上进行。相反,游戏在一个模拟器中运行,并通过Hao AI Lab自主研发的GamingAgent框架与AI连接。GamingAgent框架为AI提供了基本的指令,如“如果附近有障碍物或敌人,向左移动或跳跃以躲避”,同时还能提供游戏内的截图。AI通过生成Python代码来操控马力欧。

学习与策略:AI在游戏中的挑战

实验室表示,这个游戏环境迫使每个AI模型学习如何规划复杂的操作并制定游戏策略。有趣的是,实验发现,尽管像OpenAI的o1这样的推理模型在大多数基准测试中通常表现强劲,但在《超级马力欧兄弟》中,它们的性能却不如“非推理”模型。研究人员指出,推理模型在实时游戏中表现不佳的原因之一是它们通常需要数秒时间来决定行动,而在《超级马力欧兄弟》中,时机至关重要。

游戏作为AI性能评估工具的争议

数十年来,游戏一直是衡量AI性能的重要工具。然而,一些专家对将AI在游戏中的表现与技术进步直接挂钩的做法表示质疑。他们认为,与现实世界相比,游戏往往是抽象且相对简单的,并且能够为AI训练提供理论上无限的数据。

评估危机:AI性能评估的困境

大浪资讯注意到,最近一些引人注目的游戏基准测试结果引发了OpenAI研究科学家、创始成员安德烈・卡帕西(Andrej Karpathy)所说的“评估危机”。在X平台上,卡帕西写道:“我目前真的不知道该关注哪些AI指标。”他总结道:“我的反应是,我目前真的不知道这些模型到底有多好。”

AI玩《超级马力欧兄弟》:一种独特的体验

尽管存在争议和挑战,但至少我们可以通过观看AI在《超级马力欧兄弟》中的表现来获得一种独特的体验。这种尝试不仅展示了AI的潜力,也揭示了其在复杂环境中的挑战。