AI 相互协作,数学成绩飙升!微软研发的新技术让错题变得稀少
AI助力学生成绩飞速提升,数学错题瞬间消失
数界探索
提升 LLM 数学能力的新方法来了 ——
一个大模型效果不佳,不妨尝试使用两个模型协同工作,让它们相互校正可能存在的偏差。 在当前的人工智能技术发展进程中,单一模型的局限性逐渐显现,特别是在处理复杂任务时,容易出现理解偏差或信息遗漏等问题。因此,采用多个模型进行互补,不仅能够提升系统的整体性能,还能增强其应对多变应用场景的能力。这种策略的应用,无疑为人工智能领域带来了新的思路与可能性。通过两个模型之间的协作与校正,有望进一步提升模型的准确性和可靠性,从而更好地服务于社会各个领域的需求。
这是加州大学与微软研究院联合发布的最新研究——Flow-DPO。该研究利用在线学习流(Flow)技术和直接偏好优化(DPO, Direct Preference Optimization),旨在使大型语言模型(LLM)生成更为详尽且精准的推理过程。
同时,这种在线多智能体的学习形式不仅能够深入挖掘数据中的潜在价值,还有效规避了由于人工标注数据不准确而可能带来的问题。 从技术发展的角度来看,这种多智能体系统在处理复杂任务时展现出的强大能力令人振奋。它不仅能自动识别和学习数据中的深层次特征,还能显著提高数据分析的效率与准确性。这不仅为科研领域提供了新的研究方向,也为商业决策提供了更为可靠的数据支持。然而,我们也应关注其背后的数据安全与隐私保护问题,确保技术进步的同时不会牺牲用户的基本权益。
我们先一起看个例子感受一下。
比如针对下面这道题:
方程 x + 2y + 3 = 0 的图与方程 ax + 2y + 3 = 0 的图互相垂直。请问 ax + 2y + 3 = 0 中,a 的值是多少?
基准回答是这样的:
方程 \( x^2y^3 = 0 \) 的图形的斜率为 -1/2,但因为图形实际上是垂直的,所以对于方程 \( ax^2y^3 = 0 \),其斜率应该是 \( x^2y^3 = 0 \) 斜率的负倒数。因此,方程 \( ax^2y^3 = 0 \) 的斜率为 2,可以改写为 \( 2y = -ax - 3 \),然后两边同时除以 2,得到 \( y = -\frac{a}{2}x - \frac{3}{2} \)。将其与斜率截距形式 \( y = mx + b \) 相比,我们发现斜率 \( m \) 为 \( -\frac{a}{2} \)。由于已知斜率为 2,因此有 \( -\frac{a}{2} = 2 \)。将两边同时乘以 -2,得到 \( a = -4 \),故答案为:-4。
而 Flow-DPO 的回答是这样的:
要解决这个问题,我们需要理解线性方程中垂直线的特性。当两条直线垂直时,它们的斜率互为负倒数。首先,我们考虑给定的方程x2y3=0,将其改写为斜率-截距形式,即y=-1/2x-3/2。这表明直线的斜率为-1/2。接下来,我们要找出方程ax2y3=0所表示的直线的斜率。同样地,我们将该方程改写为斜率-截距形式,得到y=-a/2x-3/2。由此可知,这条直线的斜率为-a/2。由于这两条直线垂直,其斜率必须满足互为负倒数的关系。也就是说,(-1/2)×(-a/2)=1,简化后得到a=-4。因此,a的值应为-4。
让GTP-4作为裁判,对两个模型的回答进行了评估,最终认为答案B(FLow-DPO)更胜一筹,理由有二。 在当今技术日新月异的时代背景下,这样的评估结果不仅反映了技术发展的趋势,也揭示了当前人工智能领域内不同方法论之间的微妙差异。从某种角度来说,GTP-4的选择表明FLow-DPO在某些特定任务或应用场景下可能具有更高的效率和准确性。这无疑为研究人员提供了宝贵的参考,同时也提醒我们在追求技术创新的同时,需要更加注重实际应用中的效果与用户体验。未来,随着更多类似研究的深入,我们有望见证更多高效且实用的人工智能解决方案的诞生,从而推动整个行业向着更为成熟和多元化的方向发展。
我们可以利用斜率之间的负倒数关系来求解a。答案B花时间明确解释了垂直的概念,强调垂直线的斜率是负倒数。这种回答方式不仅提供了正确答案,还进一步深化了读者对数学概念的理解。通过详细解释垂直线斜率的关系,可以帮助学生更好地掌握相关知识点,而不仅仅是记住公式或步骤。这样的教学方法不仅提高了学生的解题能力,还能培养他们对数学的兴趣和逻辑思维能力。 修改后的内容更注重于教学方法对学生理解能力和兴趣的提升作用,强调了解题过程中的教育意义,而不是仅仅停留在提供答案的层面。这种方式有助于构建更加积极有效的学习环境,使学生在解决问题的同时,也能够深入理解数学原理。
答案 A 推导出了正确的方程并正确地求解了方程,但引入了一些不必要的步骤。
例如,中间步骤涉及将方程改写为 2y = -ax - 3 和两边除以 2 的中间步骤比必要的步骤复杂。
选项B立即采用了两个方程的斜截式形式来简化方法。它清晰地展示了如何抽取斜率,并且直接对比了两个方程的斜率,使得整个过程更加简洁明了,易于理解。
选项B的解析更为清晰透彻,不仅关注概念与公式,还避免了不必要的复杂性。这种逐步深入的方法更容易被理解和掌握。
可以看到,在处理实际数学问题时,Flow-DPO生成的推理过程不仅提供了更为详尽的指导,还避免了不必要的复杂性,从而提升了内容的可读性和理解性。
这是怎么做到的呢?
针对 LLM 解决数学问题时反馈信息有限、标注数据质量不高等问题,团队提出了一种新的方法。
通过在线学习流(Flow)和直接偏好优化(DPO)学习来生成高质量的推理轨迹,这不仅展示了人工智能技术在处理复杂任务上的强大能力,也为我们提供了一种全新的视角来看待机器学习的应用领域。这种技术能够帮助系统更好地理解人类的偏好和需求,从而生成更加贴近用户期待的结果。在信息爆炸的时代,这样的技术进步无疑为提升用户体验提供了有力的支持。它不仅能够应用于推荐系统,优化搜索结果排序,还能够在教育、娱乐等多个领域发挥重要作用,进一步推动智能化服务的发展。随着这类技术的不断成熟与普及,我们有理由相信未来的智能系统将更加个性化、智能化,更好地服务于人类社会。
具体分为 2 个部分:
Flow-DPO 采用了增量输出生成 Flow,其中有两个独立的 LLM(Answer LLM 和 Stop LLM)协同工作,通过迭代通信构建解决方案。
具体来说,AnswerLLM每次生成的是一个限定范围的答案片段,而StopLLM则负责评估这些片段是否已经达到了最终答案的状态。两者通过迭代式的训练方式不断优化自身的性能。
原有的基础模型既支撑着AnswerLLM,也支撑着StopLLM,不过两者通过不同的低秩适应器(LoRA)进行了微调,以便更专注于各自的任务。 AnswerLLM与StopLLM共享同一基础模型,但它们分别通过特定的低秩适应器进行微调,以满足各自的特定需求。这种设计不仅提高了模型的效率,还增强了其在不同应用场景中的表现力。这样的技术路径表明,在人工智能领域,针对具体任务进行模型优化仍然是提升性能的关键策略之一。此外,这也反映了未来AI系统的发展趋势——更加精细化、定制化的解决方案将会越来越受到重视,这不仅能提高系统的实用性,还能更好地满足用户多样化的需求。
而且在训练过程中,Flow-DPO 可实现更精细的控制较小的块大小,灵活适应不同的概念和方法,较大的块大小近似于单次模型生成。
Flow-DPO 还会通过在线 DPO 学习和回滚来增强 Flow。
原新闻内容: 对于每个输入问题,AnswerLLM会生成一个答案片段,一直持续到产生完整的回答。 修改后内容: 面对每一个提出的问题,AnswerLLM都会逐步生成答案片段,直至形成完整且详尽的回答。 个人看法: 这种逐步生成答案的方式不仅能够确保信息的准确性,还能让读者或用户在过程中逐步理解复杂的问题和解答过程。这种方式特别适合处理那些需要深度解析的信息,有助于提升用户的认知和理解能力。同时,它也为人工智能与人类之间的沟通提供了一种更加人性化的方法,使得机器的回答更接近于人的思考逻辑。
然后模型会在每个输出节点进行随机展开,比如在生成初始答案片段且 Stop LLM 判断为“否”后,Flow 还会生成另一个答案片段,基于之前的部分答案继续构建。
若两个答案在准确性上有差异,应将其视为答案语言模型的差异性偏好(DPO)对比。倾向于引导至正确答案的那一部分将被选为首选响应。
为了验证 Flow-DPO 的性能,研究团队还设计了精密的验证实验,具体设置如下
数据集:实验采用了MetaMath数据集,该数据集在GSM8K和MATH数据集的基础上,运用了数据增强技术进行扩充。
模型选择:实验采用了两种不同规模的模型:Llama-3-8B-Instruct 和 Phi-3-medium-128k-instruct (14B)
Flow 学习阶段:在 Flow 学习阶段,团队使用不同的 LoRA 适配器对 Answer LLM 和 Stop LLM 进行微调,让它们在 DPO 训练中的能力更加专业。
编译阶段:在编译阶段,收集Flow生成的准确推理轨迹和基线模型生成的准确推理轨迹,进行独立评估。
最终结果显示,使用了 Flow-DPO 之后,Llama3 模型和 Phi3 在数学推理上的能力都大幅提升了!
一起来看看具体结果分析:
渐进验证准确率的确切定义是指在训练开始之前,模型对用于训练的数据集进行预测的累积准确度。具体公式和各变量的含义如下图所示: (注:由于没有实际的图片或公式提供,此处仅对文字描述进行了修改,保留了原意。)
实验结果显示,在线 DPO 训练显著提高了 Flow 的泛化能力。
在线DPO学习技术在短短2000个训练实例内显著提升了Llama-3-8B-Instruc模型的性能,使得Flow的性能提升了20%。与此同时,Phi-3-medium-128k-instruct模型通过同样的在线DPO学习方法,其准确率也从79%提升到了83%,提高了4个百分点。 这一进展展示了在线DPO学习在优化大规模语言模型方面的强大潜力。尽管训练数据量不大,但其带来的性能提升却十分显著,这表明在线DPO学习方法能够在有限的数据资源下实现高效的模型优化。此外,这一技术的应用范围似乎不仅限于特定的模型架构,而是在不同类型的模型上均展现出良好的效果。这对于推动AI技术的发展以及提高模型的实际应用价值具有重要意义。
Flow生成的推理轨迹在质量上也优于基线模型和自身模型生成的正确推理轨迹。 这种技术的进步无疑为人工智能领域带来了新的希望。Flow算法不仅在准确率上有所提升,更重要的是它在生成高质量的推理轨迹方面展现出了巨大的潜力。这表明,在解决复杂问题时,采用先进的算法可以显著提高模型的表现力和实用性。未来,随着更多研究的深入和技术的发展,我们有理由相信这类算法将在更广泛的场景中得到应用,并推动人工智能技术向更高层次发展。
针对Llama-3-8B-Instruct模型,经过Flow生成的推理轨迹进行微调后,在GSM8K和MATH数据集上的准确率分别提升了6%和7.8%。
对于Phi-3-medium-128k-instruct模型,Flow进行的推理轨迹优化在两个数据集上的微调准确率分别提升了1.9%和2.1%。
除了最初的垂直直线问题外,研究团队还发布了许多实际的解题回答和对比分析,有兴趣的读者可进一步查阅论文以获取更多信息。
没想到,前不久曾让许多大型语言模型倍感棘手的数学问题,如今也取得了显著的进步!
具备出色的逻辑分析能力,我们有望在未来期待大型语言模型(LLM)解决更多复杂的问题。
[1]https://arxiv.org/abs/2410.22304