超越人类程序员？揭秘OpenAI最新研究：现有AI模型仍存差距-大浪资讯

admin722025-02-24 14:35:36

超越人类程序员？揭秘OpenAI最新研究：现有AI模型仍存差距

探索AI边界：OpenAI最新研究揭示现有模型距超越人类程序员仍有差距

　　 2月24日消息，尽管OpenAI首席执行官萨姆・奥尔特曼（Sam Altman）表示，到2025年年底，人工智能模型将能够超越“低级别”软件工程师，但该公司研究人员的最新研究显示，即使是最先进的AI模型，仍然无法与人类程序员相提并论。

　　研究人员在一篇新论文中指出，即便是最前沿的AI系统，如那些最具创新性和突破性的模型，目前仍难以应对大多数编程任务。为了更全面地评估这些系统的实际能力，研究人员开发了一个新的基准测试工具，命名为SWE-Lancer。这个工具建立在来自自由职业者平台Upwork的1400多项软件工程任务的基础之上。通过使用SWE-Lancer进行测试，发现即使是像OpenAI自家的o1推理模型、旗舰产品GPT-4o，以及Anthropic公司的Claude3.5Sonnet这样的顶级大型语言模型，在处理复杂编程任务时也表现出了一定的局限性。这项研究揭示了尽管当前的AI技术取得了显著进展，但在某些具体应用领域，如高级编程任务，它们依然存在提升空间。这不仅为未来的AI研究指明了方向，同时也提醒我们，AI系统的广泛应用还需结合人类的专业知识与判断，以实现更高效、准确的工作成果。

　　具体而言，这项新的基准测试评估了这些大型语言模型（LLMs）在处理Upwork上的两类任务时的表现：一类是个体任务，涉及识别和修复漏洞；另一类是管理任务，要求模型从更宏观的角度进行高层次决策。需要强调的是，在测试期间，这些模型不允许访问互联网，这意味着它们不能直接引用网络上已有的解决方案。

　　这些模型在Upwork上完成的任务总价值可达数十万美元，但它们只能应对一些浅层次的软件问题，无法在大型项目中真正发现漏洞及其根本原因。这种“半成品”式的解决方案对与AI有过合作的人士来说并不罕见——AI善于生成看似自信的信息，然而在仔细检查时往往会暴露出诸多漏洞。

　　尽管论文指出，这三款 LLMs 通常能够“远快于人类”地完成任务，但它们却无法理解漏洞的广泛性及其背景，从而导致解决方案“错误或不够全面”。

　　研究人员解释称，Claude 3.5 Sonnet 的表现优于另外两款 OpenAI 模型，并且在测试中“赚取”的金额也超过了 o1 和 GPT-4o。然而，其大多数答案仍然是错误的。研究人员指出，任何模型若想被真正用于实际编程任务，都需要具备“更高的可靠性”。

　　简而言之，该研究显示，虽然这些先进的模型可以迅速应对某些细节性工作，但它们在这类工作的技能表现上，依然远逊于人类工程师。

　　尽管近年来这些大型语言模型取得了迅速的进步，并且未来还将持续提升，但它们目前在软件工程领域的技能水平还不足以替代人类。然而值得注意的是，一些首席执行官似乎并未意识到这一点，已经开始解雇人类程序员，转而依赖这些尚不成熟的AI模型。

随机文章

侧栏广告位

超越人类程序员？揭秘OpenAI最新研究：现有AI模型仍存差距-大浪资讯

超越人类程序员？揭秘OpenAI最新研究：现有AI模型仍存差距

相关文章