《稚晖君倾力打造,GO-1通用具身基座大模型惊艳亮相,前瞻未来新品动态 —— 大浪资讯独家报道》

admin122025-03-10 09:59:17

智元机器人发布创新大模型Genie Operator-1,引领具身智能新纪元

2023年3月10日,北京讯 —— 创新科技领军者“稚晖君”的创业项目——智元机器人,今日正式推出其首个通用具身基座模型——智元启元大模型(Genie Operator-1)。这一突破性的技术成果,不仅标志着智元在人工智能领域的又一重要进展,也为具身智能的发展开辟了新的道路。

ViLLA架构:开创性的技术突破

Genie Operator-1的核心是其独特的ViLLA(Vision-Language-Latent-Action)架构。这一架构由VLM(多模态大模型)和MoE(混合专家)两部分组成,实现了通过人类视频学习,实现小样本快速泛化,有效降低了具身智能的门槛。更重要的是,该架构已成功应用于智元多款机器人本体。

AgiBot World:海量数据助力模型发展

为了支持Genie Operator-1的发布,智元在2024年底推出了AgiBot World,这是一个包含超过100万条轨迹、217个任务、涉及五大场景的大规模高质量真机数据集。基于这一数据集,智元正式发布了Genie Operator-1(GO-1)。

ViLLA架构详解

ViLLA架构的三大关键组成部分如下:

  1. VLM(多模态大模型):通过海量互联网图文数据,VLM获得了通用场景感知和语言理解能力。
  2. MoE(混合专家)中的Latent Planner(隐式规划器):借助大量跨本体和人类操作视频数据,Latent Planner获得了通用的动作理解能力。
  3. MoE(混合专家)中的Action Expert(动作专家):借助百万真机数据,Action Expert获得了精细的动作执行能力。

性能卓越,成功率提升显著

通过ViLLA架构,智元机器人在五种不同复杂度的任务上对GO-1进行了测试。结果显示,GO-1的成功率相比现有最优模型大幅提升,平均成功率提高了32%(从46%提升至78%),在“倒水”、“清理桌面”和“补充饮料”等任务上表现尤为出色。

ViLLA架构的额外验证

智元机器人还单独验证了ViLLA架构中Latent Planner的作用,结果显示,增加Latent Planner可以提升12%的成功率(从66%提升至78%)。

Genie Operator-1:多维度优势

GO-1大模型凭借以下四个方面的优势,成为具身智能领域的佼佼者:

  1. 人类视频学习:GO-1大模型能够结合互联网视频和真实人类示范进行学习,增强对人类行为的理解,更好地服务于人类。
  2. 小样本快速泛化:GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低具身模型的使用门槛。
  3. 一脑多形:GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,实现群体升智。
  4. 持续进化:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

未来展望

智元机器人还预告了下一代具身智能机器人产品的研发,但目前尚未透露具体的推出时间。

论文链接

欲了解更多详情,请参阅智元机器人发布的论文链接:https://agibot-world.com/blog/agibot_go1.pdf


注意:以上内容为改写后的博客发布排版,旨在提供更流畅、更易于阅读的文本。