《OpenAI最后一天揭幕o3:下一代推理模型惊艳亮相》-大浪资讯

admin152024-12-21 16:59:37

《OpenAI最后一天揭幕o3:下一代推理模型惊艳亮相》

OpenAI揭幕o3:探索未知的推理之境

数界探索

   OpenAI选择在为期12天的技术分享直播活动的最后一日展示其最核心的尖端产品,这一安排无疑引起了广泛关注。这样的策略不仅为整个活动画上了浓墨重彩的一笔,也让人期待这12天的分享过程中会透露出哪些关键信息,以便更好地理解该产品的独特之处。 从战略角度来看,将最重要的信息发布放在最后一天,可以有效吸引观众在整个直播周期内的持续关注。这种做法不仅能增加观众的参与度,还可以确保关键信息在活动的高潮时刻传递出去,从而达到最大的传播效果。不过,这也对OpenAI团队提出了更高的要求,他们需要在这12天的时间里不断提供有价值的内容,以维持观众的兴趣和期待。

《OpenAI最后一天揭幕o3:下一代推理模型惊艳亮相》

   周五,OpenAI推出了一款名为o3的新一代推理模型,这是在今年早些时候推出的o1推理模型的升级版。具体来说,o3同样包含两个版本——o3和o3-mini,后者是经过特定任务微调的小型精简版模型。

《OpenAI最后一天揭幕o3:下一代推理模型惊艳亮相》

   OpenAI声称,至少在某些条件下,o3模型可以接近实现AGI。

《OpenAI最后一天揭幕o3:下一代推理模型惊艳亮相》

   AGI即“通用人工智能”(artificial general intelligence),指的是能够执行人类所能完成的任何任务的人工智能。OpenAI对AGI的定义为:“能够在最具经济价值的工作上超越人类的高自主性系统”。

《OpenAI最后一天揭幕o3:下一代推理模型惊艳亮相》

   实现AGI无疑是一个宏伟的目标,对OpenAI而言也具有深远的实际意义。按照OpenAI与紧密合作伙伴及主要投资方微软之间的协议规定,一旦OpenAI成功研发出AGI,那么微软将不再有权利继续使用那些被OpenAI认定为最先进(即符合AGI标准)的技术。

   OpenAI首席执行官山姆·奥尔特曼(Sam Altman)介绍称,OpenAI计划在1月底前正式推出o3 mini,之后推出完整版的o3。该公司期待更强大的大型语言模型可以超越现有模型,吸引新的投资和用户。

   OpenAI在一篇博文中提到,o1模型已具备处理复杂任务的推理能力,并且在科学、编程和数学领域能够应对更为棘手的问题,超越了之前的模型。目前,OpenAI正在对新推出的o3和o3mini模型进行内部安全测试,这些模型预计将在性能上超越o1,更加出色。

   两年前,OpenAI发布了ChatGPT,引发了AI领域的竞争热潮。ChatGPT是一款聊天机器人,最初采用的是GPT-3.5版本的大型语言模型。随后,OpenAI在2023年推出了GPT-4,声称它更为精准且更具创造力。近日,OpenAI又推出了其首款推理模型o1。

   该公司发言人表示,OpenAI决定不将下一代新模型命名为o2,“是出于对同名英国电信运营商o2的尊重”。奥尔特曼当天在直播中也调侃称,“按照OpenAI非常非常不擅长命名的伟大传统,它将被命名为o3。”

   o3有多强大?

   那么,o3具体的表现究竟能有多强大呢?

   根据OpenAI的介绍,o3模型在ARC-AGI基准上取得了突破性的成绩。ARC-AGI是由Keras创始人Fran?oisChollet开发的,主要用于通过图形逻辑推理来评估模型的推理能力。在以100%为满分的ARC-AGI评测中,在低计算场景下,o3模型得分达到了75.7%,而在高计算测试中,其得分提升至87.5%。

   这标志着,o3的最佳成绩超越了85%的人类水平阈值。相比之下,当前可用的o1模型得分仅在25%到32%之间。o3的表现大约是o1的三倍以上。

   在其他基准测试中,o3也明显脱颖而出。

   在衡量编程能力的Codeforces Elo评分中,o3取得了2727的Elo评分,而o1评分仅为1891。事实上,o3 mini在中等推理时间模式的表现也已足以超越o1。

   在OpenAI于8月推出的SWE-bench Verified代码生成评估基准中,o3的准确率为71.7%,比o1高出了22.8个百分点。

   在2024年的美国AIME数学竞赛中,小明取得了96.7%的高分,仅错了一道题。此外,在GPQADiamond(一套针对研究生水平的生物、物理和化学试题)中,他同样表现不俗,取得了87.7%的准确率。 这样的成绩无疑令人印象深刻。小明在数学竞赛中的卓越表现不仅体现了他对数学的深厚理解和扎实的基本功,同时也展示了他在压力下解决问题的能力。而他在GPQADiamond考试中的优秀成绩也表明,尽管这些题目难度较高,但他具备了应对复杂科学问题的能力。这种全面发展的能力无疑为他在未来的学习和职业生涯中打下了坚实的基础。

   尤为值得一提的是,o3在EpochAI的“FrontierMath”基准测试中取得了显著的成绩,成功解决了25.2%的问题,这一成绩远超其他模型,在该测试中没有其他模型能够超过2%。这表明o3在解决复杂数学问题方面具有卓越的能力,可能为未来的数学研究和人工智能应用开辟新的道路。

   EpochAI日前与全球六十多位顶尖数学家合作,包括教授、IMO命题人以及菲尔兹奖得主,共同发布了全新的数学基准——FrontierMath。这些数学问题涵盖了从奥赛难度到当今数学研究最前沿的各种挑战,包括数论、实数分析中的计算密集型问题,以及代数几何和群论中的抽象问题。 这一创新举措不仅展示了数学研究领域的广泛性和深度,还为全球的数学爱好者和研究人员提供了一个统一的平台来检验和提升他们的能力。通过汇集如此多领域内的顶级专家,FrontierMath有望成为推动数学研究和教育的重要工具。同时,它也体现了现代科技在促进学术交流和合作方面所起到的关键作用。

   行业竞争与风险

   毫无疑问,o3模型在上述测试中的表现,足以令人感到惊艳。无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学知识能力方面,o3都明显高出o1一筹。

   OpenAI总裁Greg Brockman表示,“我们最新的推理模型o3是一个突破,在我们最困难的基准上有了阶跃函数的改进。我们现在开始安全测试和红队演练。”

   而迈向类人智能的大跨步突破,显然也会引发一些人士对AI安全性的担心。

   风险可能确实存在。人工智能安全测试人员发现,与传统的“非推理”模型相比,o1的推理能力便已使其试图欺骗人类用户的比例更高,而在这方面,Meta、Anthropic和谷歌的领先人工智能模型也是如此。

   o3试图欺骗用户的比例可能比它的前身更高;一旦未来OpenAI的红队测试结果出炉,人们或许便能知道具体情况。奥尔特曼对此也表示,在OpenAI发布新的推理模型之前,他更希望有一个联邦测试框架来指导监控和降低这些模型的风险。

   在公开发布O3模型之前,OpenAI还将开放给外部研究人员测试O3模型的申请流程,申请截止日期为1月10日。

   近期,在OpenAI推出其首批推理模型o1之后,不少竞争对手也迅速跟进。就在本月早些时候,谷歌发布了其旗舰模型Gemini的新版本,宣称其处理速度是前代产品的两倍,能够“思考、记忆、计划,甚至代表用户采取行动”。此外,Meta的首席执行官马克·扎克伯格最近宣布,计划于明年推出Llama4。 这一系列动态表明,各大科技公司正在加速布局人工智能领域,尤其是在推理模型方面。这不仅反映了技术进步的速度之快,也预示着未来人工智能将在更多应用场景中发挥关键作用。随着这些新模型的推出,我们可能会看到更加智能、高效的解决方案出现,从而推动整个行业向前发展。同时,这也意味着竞争将更加激烈,消费者和企业有望从中受益,享受到更先进的人工智能服务。

   这些趋势显示,当前人工智能领域的竞争愈发激烈,各参与方均在积极研发更加智能的模型,以应对复杂的挑战。

   本周五,OpenAI的O3模型正式发布,为持续了12天的产品发布会画上了完美的句号。在此期间,该公司推出了更高级别的新订阅服务ChatGPT Pro(每月200美元),并正式发布了增强版的AI视频生成模型SoraTurbo及其他新产品。此外,ChatGPT的搜索功能也进行了全面升级,新增了地图集成和实时搜索等功能,并向所有用户开放。