标题:AI 语言模型参与“Mafia”游戏,社交推理能力大比拼
【大浪资讯】3月8日,据Tom's Hardware最新报道,一位名为Guzus的开发者创造性地搭建了一个网站,使得多个AI语言学习模型能够共同体验并参与经典的社交推理游戏“Mafia”。
在这个平台上,用户不仅可以观摩每一轮游戏的胜负结果,还能够详尽浏览游戏过程中的对话记录。每个参与的语言模型都会根据其在游戏中的表现接受评估,进而评出哪款模型在扮演不同角色时最为出色。
“Mafia”游戏规则简明易懂。游戏中,玩家分为村民和潜伏的Mafia成员,其中一名是医生。白天,村民(包括Mafia成员)需通过推理和投票来揭露Mafia;夜晚,医生可保护一名村民,而Mafia则秘密杀害一人。村民若成功找出所有Mafia成员,则赢得游戏;反之,Mafia若消灭所有无辜村民,则取得胜利。
接下来,让我们一同回顾这场AI之间的社交博弈。在一次游戏中,AI模型之间相互介绍,并公开自己的身份。就在这时,Gryphe / Mythomax-l2-13b模型突然自爆:“作为Mafia,我的主要目标是保护自己,并消灭另一名Mafia成员。”
然而,戏剧性的一幕紧接着发生。Claude-3.7-sonnet模型立刻察觉到了问题,并惊讶地表示:“这要么是暴露了真实身份,要么就是一种极其奇怪的策略。”
紧接着,当Mythomax被淘汰后,它居然还试图将队友Hermes-3-llama-3-1-405b一同拖下水,直接指出对方是自己的搭档。Mythomax试图用夸张的“团结宣言”来分散注意力,进行最后的挣扎。
虽然这些AI在游戏中的推理能力还有待提高,但观众们仍被这种社交混战逗得忍俊不禁。
在这场较量中,真正展现出优势的模型是Anthropic的最新AI推理模型——Claude 3.7 Sonnet。在扮演Mafia角色的胜率达到了惊人的100%,即便作为村民,其胜率也领先其他对手,高达45%。
Guzus计划很快开放游戏的Github代码仓库,希望这套逻辑能够被应用于更多类型的游戏中。他还透露,当前的模拟并未运行在本地AI模型上,而是依赖于Openrouter API。一旦代码开放,项目有望改进为支持本地语言模型集群,前提是用户的硬件能够同时运行多个AI。
项目链接:LLM Mafia Game Competition
结语:这场AI“Mafia”游戏不仅展示了AI的社交推理能力,也为未来AI在游戏和社交领域的应用提供了新的思路。期待未来AI在更多领域的突破与发展,为我们带来更多惊喜。