里程碑突破！世界首例2B级DeepSeek-R1“突破性瞬间”重现，UCLA团队纯基于强化学习完成多模态推理任务

admin382025-03-05 16:35:25

【新智元独家报道】

编辑：编辑部 HNZ

【新智元深度解读】

由加州大学洛杉矶分校（UCLA）等知名机构联合组建的研究团队，在全球人工智能领域取得了突破性进展。该团队在20亿参数的非监督预训练（SFT）模型上，成功实现了多模态推理的“啊哈时刻”——DeepSeek-R1，这标志着AI多模态推理领域的一大飞跃！

视觉推理的突破

最近，该研究团队在未经监督微调的2B模型上，通过DeepSeek-R1-Zero方法，见证了视觉推理的“啊哈时刻”。这一成就不仅引起了AI社区的广泛关注，也为多模态推理领域带来了新的启示。

挑战与突破

尽管已有许多研究试图复现DeepSeek-R1，但多数研究在复现过程中遇到了难题：难以复制R1所展现的回答长度增加和思考模式的特征。幸运的是，该研究团队成功实现了这一目标，并揭示了多模态的“啊哈时刻”——模型回答中涌现出了自我反思能力。

超越传统方法

他们不仅成为全球首个在多模态推理中产生“啊哈时刻”并实现回答长度增加的团队，而且仅使用了一个未经监督微调的2B模型。此外，他们还发现，更长的推理过程可以让以视觉为中心的任务受益匪浅。

可视化推理的动态变化

研究团队在Qwen2-VL基础模型上进行了可视化训练，并观察到了回答长度从下降到逐渐增加的动态变化。通过强化学习，他们成功抑制了基础模型生成HTML代码的倾向，并实现了多模态的“啊哈时刻”。

开源项目

为了促进AI社区的发展，研究团队已在GitHub上开源了训练代码和关于回答长度的发现，以加速未来对多模态推理的研究。

DeepSeek-R1的关键特征

DeepSeek-R1已证明，强化学习可以在没有任何监督推理数据的情况下增强模型的推理能力。研究团队详细分析了DeepSeek-R1的关键特征，并与其他多模态复现模型进行了比较。

多模态的“啊哈时刻”

在DeepSeek-R1-Zero的训练过程中，研究者观察到了一个引人注目的现象——“啊哈时刻”。这一现象表明，DeepSeek-R1-Zero能够自发构建推理策略，并重新审视自己的初始方法，以提升推理能力。

R1-Zero的训练方法

研究团队采用了一种简洁优雅的强化学习方法，直接对未经SFT的基础模型应用强化学习，从而实现了“啊哈时刻”的涌现。

实验与发现

在实验中，研究团队微调了Qwen2-VL-2B基础模型，并在CV-Bench（一个以视觉为中心的基准测试套件）上评估了其性能。结果显示，该方法在基础模型和指令微调模型上都取得了显著的性能提升。

未来计划

研究团队将继续探索多模态推理中响应长度的作用，利用人工筛选的R1-Zero推理路径进行监督微调，以复现R1方法。

作者介绍

本文作者来自加州大学洛杉矶分校（UCLA）、宾夕法尼亚州立大学信息科学与技术学院、马里兰大学帕克分校计算机科学系等机构。他们致力于推动多模态AI智能体的研究，并为AI社区的发展贡献力量。

相关链接

注：本文为虚构内容，旨在展示专业博客发布排版。

随机文章

侧栏广告位