开源全新 SOTA 推理神经网络 OpenThinker-32B:挑战极限,引领未来
开创推理神经网络新纪元:OpenThinker-32B 绽放无限可能
32B 推理模型,仅用 1/8 数据,与同尺寸 DeepSeek-R1 打成平手。
就在刚刚,近日,由斯坦福大学、加州大学伯克利分校以及华盛顿大学等知名学府联合推出了一款顶尖的推理模型——OpenThinker-32B,并且这一模型的训练数据集也达到了惊人的114k,现已全面开放源代码。 这款模型的问世无疑为人工智能领域注入了一股新的活力,其强大的推理能力将可能引领新一轮的技术革新。如此庞大的数据集和高水平的研究团队共同打造的成果,不仅展示了这些顶尖高校在AI研究方面的强大实力,同时也为全球范围内的研究者提供了宝贵的资源。我们期待看到这款模型在未来能够应用于更多实际场景,解决更多复杂的问题。
项目主页:https://www.open-thoughts.ai/blog/scale
Hugging Face:https://huggingface.co/open-thoughts/OpenThinker-32B
数据集:https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k
团队发现:使用经过DeepSeek-R1验证和标注(基于R1蒸馏技术)的高质量大规模数据集,可以训练出达到顶尖水平的推理模型。
具体方法,通过数据规模化、推理过程验证以及模型规模扩展,我们可以更有效地提升人工智能系统的性能与准确性。这种技术上的进步不仅能够帮助我们更好地理解和处理复杂的数据集,还能在一定程度上减少人为错误。然而,我们也必须注意到,在追求技术发展的同时,确保数据的安全性和隐私保护同样重要。如何平衡技术创新与用户隐私保护,将是未来发展中需要重点关注的问题之一。
经过测试,OpenThinker-32B在数学、编程和科学研究等多方面的基准测试中表现出色,其性能远远超过了李飞飞团队的s1和s1.1模型,并且与R1-Distill-32B的水平相当接近。 这一成果不仅展示了中国在人工智能领域的强大研发实力,也标志着国内AI技术正在迅速追赶甚至超越国际顶尖水平。随着OpenThinker-32B的发布,我们可以期待它将在科研、教育以及产业应用等多个领域发挥重要作用,进一步推动我国在人工智能领域的进步和发展。
值得一提的是,OpenThinker-32B在使用了114k数据的情况下,依然能够取得与R1-Distill使用800k数据(包括600k个推理样本)相媲美的优秀成绩,这无疑展示了其在模型效率上的显著优势。这不仅证明了该模型在有限数据下的强大学习能力,也预示着未来人工智能领域可能朝着更高效、更经济的数据利用方向发展。这种技术的进步,对于推动AI技术的广泛应用和普及具有重要意义。
除此之外,OpenThinker-32还将模型权重、数据集、数据生成代码和训练代码全部公开发布了!
研究人员使用了与先前用于训练OpenThinker-7B模型相同的OpenThoughts-114k数据集来训练OpenThinker-32B模型。
他们运用DeepSeek-R1模型,搜集了精选的17.3万个问题及其推理过程和解答尝试。随后,这些原始数据被整理成名为OpenThoughts-Unverified-173k的数据集,并对外发布。
整个流程的最终环节是,若推理过程未通过验证,则需筛除对应的样本数据。
下图可视化地展示了整个过程。
研究小组首先导入源数据或问题提示,这些内容可能源自不同领域和平台,例如BAAI/TACO、DeepMind、Python提交等,涵盖代码编写、谜题解答、科学研究以及数学问题等多个方面。
DeepSeek-R1作为核心处理模块,负责深入分析和处理来自不同渠道的多元信息。这些信息主要分为三个领域:科学问题、数学与谜题以及编程问题。这一模块的设计理念在于通过精准分类和高效处理,帮助用户快速获取所需的知识和解答。这样的技术进步不仅极大地提高了信息处理效率,还为用户提供了更加个性化的服务体验。通过这种方式,DeepSeek-R1在提升用户体验的同时,也推动了人工智能技术在知识处理领域的应用与发展。
有些结果确实无需验证,可能只是基于简单的数据分析或是直接的信息输出。对于那些需要深入验证的内容,我认为可以利用大型语言模型(LLM)与实际数据(GroundTruth)进行对比来评判其准确性。尤其是涉及到代码的部分,不仅要执行代码,还应该进行单元测试,以确保代码的正确性和有效性。 这样的做法不仅能够提高工作的效率,还能大大减少错误的发生率。尤其是在当前这个信息爆炸的时代,确保数据的准确性和可靠性变得尤为重要。通过结合使用先进的技术工具和严谨的验证方法,我们能够更有效地识别出真实和虚假的信息,这对于维护新闻的真实性和公信力有着至关重要的作用。
最终能够整合来自不同角度的见解,从而形成开放性的思维并提出更加全面的解决方案。
近日,备受关注的研究团队对OpenThoughts-114k数据集进行了更新,新增了一项名为“metadata”的配置。这项配置引入了若干额外的列,为数据集的构建提供了更丰富的背景信息。这一改进不仅增强了数据集的实用性,也为研究人员提供了更多的分析维度,有助于提升研究的深度与广度。 通过添加这些额外的数据列,“metadata”配置无疑让数据集变得更加全面和细致。这表明研究团队持续致力于提高数据集的质量,并积极应对科研领域不断增长的需求。对于依赖于该数据集进行研究的学者而言,这无疑是一个令人振奋的消息,它意味着他们将能够从更加多角度和深层次地解析数据,从而得出更为准确和有价值的结论。
problem
ground_truth_solution
test_cases (code only)
starter_code (code only)
DeepSeek_reasoning
DeepSeek_solution
domain
source
这些额外的元数据不仅使数据集更易于在不同场景下使用,还能显著提升数据处理的灵活性与准确性。比如,在进行数据过滤时,我们可以更加精准地筛选出所需信息;在面对不同的研究领域时,也能迅速调整分析策略。此外,这些改进还有助于执行更为严格的验证检查,确保数据质量的同时,也方便我们根据需要更改推理过程中的模板,以适应不断变化的研究需求。 这样的改进无疑为研究人员提供了更大的便利,使得他们能够更快捷地从海量数据中提取有价值的信息,并且能够在不同的研究方向上灵活转换,大大提高了研究效率。同时,这也意味着数据分析的过程将变得更加透明和可靠,有助于增强公众对研究成果的信任度。
这些额外的元数据将得使该数据集使用起来更加容易,仅需一行代码就能完成例如过滤、更换领域、检查验证和更改推理跟踪模板等。
研究团队表示,他们希望看到社区利用这些问题和标准答案,在OpenThinker模型上开展强化学习(RL)的研究。DeepScaleR已经证实,这种方法在规模较小时尤其有效。
为了获得最终的OpenThoughts-114k数据集,研究团队对答案进行了核实,并删除了那些不准确的回答。
如下表所示,保留那些未经验证的推理过程可能会影响性能,尽管这些未验证的模型与其他32B参数规模的推理模型相比依然表现出色。
验证的作用在于,在扩大训练提示集的多样性和规模的同时,保持 R1 注释的质量。另一方面,未经验证的数据可以更容易地扩展,因此也值得进一步探索。
对于代码问题,他们通过对照已有的测试用例来验证解答尝试,从而完成推理过程的验证。
受到代码执行过程中所面临挑战的启发,他们在 Curator 中实现了一个代码执行框架,使用户能够大规模、安全地执行代码,并对照预期输出进行验证。
对于数学问题,研究团队使用一个 LLM(大语言模型)评判器来进行验证,它会同时接收标准答案和 DeepSeek-R1 的解答尝试。
结果发现,在数据生成的过程中,采用大型语言模型(LLM)作为评判器而非更为严格的解析引擎(如Math-Verify)进行验证,可以显著提高有效数据的比例。这不仅有助于提升数据集的质量,还能进一步增强下游模型的性能。尽管严格的解析引擎可能在准确性方面具有优势,但它们也可能引入过多的限制,导致数据量减少。相比之下,LLM能够更加灵活地识别和筛选出符合标准的数据,从而为训练过程提供更为丰富和多样化的信息源。这一策略在实际应用中展现出巨大的潜力,值得进一步探索和研究。 这种做法不仅体现了技术进步带来的灵活性,还反映了在大数据时代如何平衡准确性和效率的重要性。通过优化数据生成和验证流程,我们能够在保证数据质量的同时,加快研发进程,最终推动人工智能领域向前发展。
研究团队利用LLaMa-Factory平台对Qwen2.5-32B-Instruct模型进行了三次迭代的微调,该过程基于OpenThoughts-114k数据集展开,上下文长度设定为16k。完整的训练细节可以在GitHub上查阅。 这项研究展示了深度学习模型在自然语言处理领域的不断进步。通过多轮次的微调,不仅提升了模型在特定任务上的表现,也增强了其应对复杂情境的能力。这表明,在人工智能领域,持续优化和迭代对于提高模型性能至关重要。未来,随着更多高质量数据集的应用和更先进的算法的开发,我们有理由期待这些模型将在更广泛的应用场景中展现出更大的潜力。
在AWSSageMaker集群上使用四个8xH100P5节点对OpenThinker-32B进行了90小时的训练,总计使用了2,880个H100小时。
同时,OpenThinker-32B-Unverified在Leonardo超级计算机上利用了96个配备4个A100 GPU的节点(每个GPU具有64GB内存)进行了为期30小时的训练,总共消耗了11,520个A100 GPU小时。
研究团队利用开源评估库Evalchemy(炼金术)对所有模型进行了全面的评估。这种做法不仅提高了研究结果的透明度,也使得其他研究者能够复现实验结果,从而进一步验证模型的有效性和可靠性。这不仅是科学精神的体现,也为推动相关领域的进步奠定了坚实的基础。
对于 AIME24 和 AIME25,他们通过平均五次运行的结果来计算准确率。评估配置使用 0.7 的温度参数,将模型响应限制在 32,768 个 token 以内,不添加任何额外的系统或用户提示词,也不使用任何特殊的解码策略(如预算强制)。
在启动OpenThoughts项目之际,他们设定的目标是开发一个性能可媲美DeepSeek-R1-Distill-Qwen-32B的开源模型。
现在这个差距已经几乎消除。
最后,研究团队对社区在构建开放数据推理模型方面过去几周所取得的迅速进步感到鼓舞,并期待继续依托各方的见解共同推进这一进程。
OpenThinker-32B的开源表明,数据、验证和模型规模之间的协同效应对于增强推理能力至关重要。
这项成就不仅促进了开源推理模型的进步,还为整个AI领域贡献了重要的资源和灵感。
本文源自微信公众号:新智元(ID:AI_era),标题为《紧追DeepSeek-R1-32B,超越李飞飞s1!UC伯克利等发布全新顶级推理模型》