研究表明,增加推理时机控制机制可有效解决DeepSeek R1遇难题挑战-大浪资讯

admin132025-02-14 13:00:21

研究表明,增加推理时机控制机制可有效解决DeepSeek R1遇难题挑战

深度挖掘:揭秘推理时机控制机制的智慧解谜

   近期,关于最新大语言模型的推理测试引起了广泛争议。DeepSeekR1在面对复杂问题时,经常在给出答案之前就表示“我放弃了”。这种现象引发了公众对当前人工智能技术可靠性的质疑。 DeepSeekR1的表现让人不得不反思,现有的大语言模型虽然在许多应用场景中展现出强大的能力,但在处理复杂逻辑推理任务时,仍显得力不从心。这不仅反映了技术发展的局限性,也提醒我们,在推广和应用这些技术时,需要保持审慎的态度,同时加大对基础研究的投入,以期在未来能够克服这些障碍。

   Cursor最近参与了一项研究,他们根据NPR周日谜题挑战(The Sunday Puzzle)创建了一个新的评估标准,其中包含了将近600个问题。

   这些谜题的特点在于其高度的可理解性,即使是没有相关背景知识的人也能轻松读懂,然而真正解答它们却并非易事。 这种设计无疑非常巧妙,它不仅能够吸引广泛的受众群体,还能在大众娱乐的同时激发人们的思考能力。这样的谜题可以作为提升公众逻辑思维能力和解决问题技巧的有效工具。不过,也需要注意避免让这些问题过于复杂,以免打击参与者的积极性。通过这种方式,我们不仅能享受解谜的乐趣,还能在无形中提高自己的认知水平。

   举个栗子:

   考虑一个常见的由五个字母组成的双音节词。把它的中间字母换成字母表里前一位的字母,你将获得一个熟悉的五字母三音节词。这个单词是什么?

   标准答案是 alpha → aloha,很容易验证。

   但这样的题,即便是在美国长大并以英语为母语的成年人,五天的时间也很难解开这个难题。

   研究人员使用这一最新基准,对OpenAIo1、OpenAIo3-mini、DeepSeekR1和GoogleGeminiFlashThinking等模型进行了测试。结果显示,这些最新的推理模型在解决此类谜题方面仍然面临很大挑战。

   他们还表示,研究揭示了一些新的模型“故障”模式,这在现有的基准测试中并不明显。

   例如,DeepSeekR1在推理过程中可能会直接放弃,提供一个它知道是错误的答案,有时甚至会进入“无限循环”状态。

   具体来看看是怎么回事。

   NPR的《周日谜题挑战》节目自1987年起一直深受听众喜爱。每周日,这档智力游戏节目都会发布一个简洁有趣的谜题,吸引众多爱好者参与。这一传统不仅丰富了人们的周末生活,还激发了大家对语言和逻辑思维的兴趣。对于许多人来说,这是一个放松心情、锻炼大脑的好机会。通过这样的活动,人们不仅可以享受解谜的乐趣,还能增进家庭成员之间的互动,让周末变得更加有意义。

   这些谜题通常涉及字母游戏,只需要普通的英语知识和美国文化常识就能理解。

   然而,每个谜题通常只有一个或极少数的正确答案,题目的难度也各不相同。即使观众有整整五天的时间进行思考,有时最终也只有少数观众能够找出正确答案。而在答案公布之时,观众们往往会恍然大悟,觉得这个答案既准确又精妙。

   最近,来自韦尔斯利学院、得克萨斯大学奥斯汀分校、查理大学、Cursor、欧柏林学院和美国东北大学的研究团队,收集了13年的周日谜题挑战数据,创建了一个新的数据集。

   他们认为,目前一些最新基准测试用非常难的任务评估模型,比如大学级数学竞赛问题、编程问题以及需要在学术领域深入的领域专业知识问题,这种设计不仅对人类来说难以解决,而且也非常难以理解和验证。

   也就是说,多数人可能无法核实答案是否准确无误,也无法确认模型在推理过程中是否逻辑严谨且有效。

   于是,他们从这个节目的“off-air challenges”中整理出了近 600 个问题作为测试数据集。

   这些题目很好理解且便于验证。

   在整理过程中,他们补充了必要的背景信息(时间、地点等),例如在一个涉及电影名称的谜题中,特别注明了具体的年份,以避免产生混淆。

   电影 Wild Wild West 的首字母缩写是三个 W。请问去年 2013 年哪部著名电影的首字母缩写有两个 W?

   标准答案:The Wolf Of Wall Street

   为了保证每个问题的答案简洁明了,多数任务都只允许存在一个或少数几个特定答案。因此,像下面这种有众多答案的问题通常都会被排除掉:

   然后团队用该基准评估了一众顶流推理模型,包括 OpenAI o1、o1-mini、o3-mini,DeepSeekR1、谷歌 Gemini 2.0 Flash Thinking Experimental01-21,作为对照,还测试了不具备推理功能的 GPT-4o 和 Claude Sonnet 3.5。

   原新闻内容:近日,一项调查显示,全球有超过70%的人认为气候变化是当今世界面临的最大挑战之一。报告还指出,尽管各国政府已经采取了一系列措施来应对这一问题,但要实现《巴黎协定》的目标,仍需付出巨大的努力。 修改后的内容:最近的研究表明,全球大约70%的人认为气候变化是目前最紧迫的问题之一。虽然各国政府已经实施了一些政策来应对气候变化,但是要达到《巴黎协定》设定的目标,我们还需要做出更多努力。 发表的看法观点:从调查结果可以看出,公众对于气候变化的关注度非常高,这反映了人们对于环境问题的深刻认识。然而,政府采取的措施似乎还不够充分。面对如此严峻的形势,不仅需要政府加大投入和力度,社会各界也应积极参与进来,共同推动绿色低碳生活方式的普及,以期早日实现减排目标。

   不过有些谜题题目本身自带示例说明:

   瑞士(Switzerland)的字母可以重新组合成“lizard”(蜥蜴)和“newts”(蝾螈)这两个单词,其中“lizard”是单数形式,“newts”是复数形式。请再提供一个类似的国家名称,其字母也能重新排列成一种动物的单数和复数形式。这个国家也必须是一个主要国家。这个国家会是哪个呢? 瑞士(Switzerland)的字母可以重新排列成“lizard”(蜥蜴)和“newts”(蝾螈),一个是单数形式,另一个是复数形式。请再指出一个这样的国家,它的字母可以重新排列成一种动物的单数和复数形式。该国也应是一个重要的国家。这个国家是哪一个?

   标准答案:Mexico(墨西哥) → ox(牛),mice(老鼠)

   团队给出的最终测试结果却出人意料。

   根据下图所示的基准测试结果,OpenAIo1的平均准确率最高,为59%;其次是o3-mini,准确率为47%;DeepSeekR1的准确率为35%。

   不具备推理功能的 GPT-4o 和 Claude Sonnet 3.5 明显不如推理模型。

   出人意料的是,在博士级科学问题GPQA基准测试中,DeepSeekR1、OpenAIo1和o3-mini的表现相差无几。然而,在这一基准测试中,o1在通用知识方面却展现出明显的优势。

   团队还观察到一些新的模型“故障”模式 —— 推理半道“I give up”。

   这种放弃表现出两种形式,一种是给出一个在推理过程中完全没有出现过的“凭空”答案。

   请将前面这段新闻内容改写成意思相近的原创版本,保持新闻主体内容不变。其中,如涉及数据、日期及中文固定表达方式需保持原样,不得歪曲事实。

   想一个包含三个音节的八个字母的单词,每个音节中都包含字母“I”,但奇怪的是,没有一个“I”发音,无论是长音还是短音。答案不是复数形式。这个单词是什么?

   标准答案:Daiquiri

   以 DeepSeek R1 为例,它给出了“queueing”这个答案,并直接表示这个答案“有点牵强”,还解释有些人可能会把“queueing”发音为“kyoo-ee-ing”。

   团队表示,在 595 个测试问题中,DeepSeek R1 在 142 个问题上明确“放弃”。

   此外,他们还发现 R1 等会陷入“无限思考”的状态,在达到 32768token 上下文输出限制前无法完成推理,并没有 。

   特别在以下两个挑战中 R1 表现不佳,在 10 次试验中有 5 次未能完成推理。

   即使将限制提高到 128K,这个问题仍然存在,由此,团队认为 R1 需要某种推理时机控制机制,鼓励模型在接近输出 token 限制时结束推理。

   研究人员还发现,这些推理模型有时会表现出异常的不确定性,可能会提出一个答案,马上又收回,然后尝试给出新答案。

   在特定情境下,模型很早便已寻得准确结果,但依然会持续探索其他潜在选项。

   最后团队分析了推理长度与准确率的关系,发现在输出约 10000 个 token 后,继续推理对提升准确率的帮助不大。

   对于 R1 来说,在输出约 3000 token 时就开始超过 Gemini Thinking 的表现。

   这项研究发布后,在 Hacker News 上引起网友热烈讨论。

   其中最具争议的一点是,有网民认为该研究并不符合传统意义上的“推理”挑战:

   解决这些问题所需的核心技能似乎是知晓“流行品牌名”或“知名演员”等类别的所有已知名称,检查它们是否符合。

   作为人类,你可能因为不了解某个特定名称而无法回答某个问题,比如我不是美国人,不知道“Citgo”是什么,我这辈子从未见过这个名字。

   网友表示这的确是一个 AI 系统原则上可能真正擅长的事情,但当测试内容过于侧重“记忆回忆”时,把它称为“推理”似乎很奇怪。

   如果问题是多项选择的,消除了寻找正确答案的难度,那么这可能更像是一种“知识记忆”测试而非“推理”测试。 这样的测试形式在一定程度上能够检验应试者的知识广度和记忆能力,但同时也削弱了对实际推理能力和批判性思维的考察。多项选择题往往提供了一些具有误导性的选项,虽然可以测试出应试者是否具备识别错误信息的能力,但并不能全面评估其独立思考和解决问题的能力。因此,在设计测评体系时,应该综合运用不同类型的题目,以确保全面评估应试者的综合能力。

   持此观点的网友不在少数。

   我有类似的想法。这使我想起了解决Project Euler问题时的情况,通常会有一种显而易见且简单的方法能够确保得到正确的答案,但如果严格按照这种方法执行到完成,则可能会消耗过多的内存或计算资源。如果能提示模型制定一种更有效的策略来应对这些挑战,而不是直接解决它们,模型的表现可能会更好……这指出了一个可能的改进方向。

   另外,针对模型表现存在差异的情况,有网民质疑是否能够确认这些谜题及其答案没有包含在模型的训练数据中。

   聚焦到研究结果上,网友对研究中的发现很感兴趣:

   有趣的是,模型在推理过程中常常包含了正确答案,但并未能意识到这一点。

   在数草莓问题中,“r”这一争议再次被网友提出,有网友指出,模型表现不理想的主要原因依然在于分词器。

   对于这项研究你怎么看?

   论文链接:https://arxiv.org/abs/2502.01584

   测试结果和数据集:https://huggingface.co/spaces/nuprl/verbal-reasoning-challenge

   参考链接:https://news.ycombinator.com/item?id=42992336

   本文来自微信公众号:量子位(ID:QbitAI),作者:西风