探索新纪元：清华与蚂蚁金服联手，以编程智慧构思，自然语言展现的大模型推理革命

admin752025-03-05 20:18:05

AIxiv专栏：推动学术交流，激发创新思维

在人工智能领域，知识的传播与交流至关重要。机器之心AIxiv专栏正是这样一个平台，它致力于发布最新的学术和技术内容，为广大读者提供前沿的科研动态。

多年积累，精彩纷呈

自创立以来，机器之心AIxiv专栏已经收录了2000多篇学术文章，内容涵盖全球各大高校和企业的顶级实验室，有效促进了学术交流和技术的传播。如果你有优秀的成果想要分享，欢迎向我们投稿或联系报道。

投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

学术前沿，共探未知

该论文的第一作者是清华大学计算机系研究生温佳鑫，蚂蚁技术研究院副研究员关健为共同第一作者。

大模型如何进行推理？自然语言是否是表达推理路径的最佳选择？这些问题一直是学术界关注的焦点。

2024年9月，OpenAI推出了o1模型，吹响了推理革命的号角，以惊人的思维链长度刷新了认知边界。在这场技术革命中，中国力量迅速崛起：DeepSeek R1以极低的训练成本成功复现了o1的性能，引发了全球的热议。

然而，在令人振奋的结果背后，上述“灵魂拷问”似乎并没有得到解答。

推理大潮，问题待解

事实上，在这场推理大潮来临之前，本文的研究团队就一直在围绕这些问题进行思考和探讨。

自然语言形式的推理范式虽然从思维链开始就主导了推理模型的构建，但其本身却存在不可忽视的缺陷：推理过程中常见逻辑断裂、焦点漂移、冗余重复等系统性问题。这就像一名博学但缺乏系统训练的学生，知识有余而逻辑不足。

CodePlan：代码规划，引领创新

为了应对这一困境，研究团队在ICLR 2025上提出了CodePlan方法。

CodePlan的创新框架将“代码形式的规划”（Code-Form Planning）引入推理过程，让大模型先用“编程思维”来思考，再用自然语言来表达。

得益于编程语言的严谨特性，代码规划能够精确构建包含条件分支、循环迭代、函数调用等结构的推理蓝图，就像为大模型装上了一个逻辑严密的“操作系统”。

更有趣的是，由于编程语言存在海量的数据，这种方法无需繁重的人工标注，能够自动从已有数据中提取隐含的规划信号；并且由于已有代码覆盖了各个领域的问题，CodePlan除了解决复杂推理问题外，还可以很好地泛化到其他任务上。

突破边界，引领未来

在13个具有挑战性的基准测试中，CodePlan实现了平均25.1%的相对性能提升。

目前，研究团队已开源了200万条包含代码形式规划的推理数据，以期推动这一方向的研究。

论文标题：CodePlan: Unlocking Reasoning Potential in Large Language Models by Scaling Code-form Planning

论文地址：https://arxiv.org/pdf/2409.12452

Github: https://github.com/thu-coai/CodePlan

Dataset: https://huggingface.co/datasets/jiaxin-wen/CodePlan

推理能力的阿喀琉斯之踵

在大模型推理能力突飞猛进的表象之下，隐藏着一个被忽视的现象：随着研究者不断追逐更大的参数规模、更庞大的数据量，模型的“思维熵增”现象反而愈发严重。

这种反常现象主要表现在两个方面：一是推理过度膨胀，即便是回答“2+3=?”这样的简单问题，o1模型也会生成长达200多个token的冗长思维链；二是推理不够专注，在解决复杂问题时频繁跳跃于不同思路之间，却始终无法深入任何一个方向得出正确答案。

CodePlan：为思维装上“操作系统”

CodePlan的核心创新在于引入“代码形式规划”（Code-Form Planning）作为思维的中间表征。

通过将编程语言的严谨结构引入推理过程，CodePlan为大模型构建了一个可靠的“思维操作系统”。

这个系统通过两个层次来实现思维的结构化：先用Python风格的伪代码勾勒出高层次的推理框架；再基于这个框架，系统性地展开具体推理步骤。

这种基于代码的表达方式具有四大核心优势：

条件分支能力：通过if语句动态调整推理路径，实现灵活的上下文适应；
循环迭代结构：利用for循环高效处理序列数据和重复操作；
模块化工具：通过函数定义和调用，增强模型对工具的创建和使用能力；
层次化架构：通过变量定义、子任务分解和严谨的逻辑编排，支持复杂推理任务的模块化分解。

结构化思维，提升模型推理能力

CodePlan在5类核心推理任务上取得显著提升。相比于直接从用户指令生成推理步骤的基线方法（Vanilla）和使用自然语言形式规划的传统方法（PS Prompting），CodePlan在所有任务上都实现了显著提升。

特别是在复杂度较高的任务上，性能提升更为明显。

例如，在Last Letter任务上，Mistral-7B的准确率提升了超过20个百分点，展示出CodePlan在处理高难度推理问题时的独特优势。

推理革命，CodePlan助力前行

CodePlan的提出为大模型推理能力发展提供了一个新思路。这项创新通过将代码形式规划引入推理过程，成功解决了自然语言表达中的结构化缺陷；更重要的是，它开创了一种全新的方法论，为大模型注入了系统化的问题解决能力。

通过开源200万条规划数据，研究团队为整个社区贡献了资源。在此基础上，期待在金融、医疗等高要求场景中有更多激动人心的应用突破。

数学自然蚂蚁大模型模型推理编程思维云计算费用"/>

随机文章

侧栏广告位