《稚晖君倾力打造，GO-1通用具身基座大模型惊艳亮相，前瞻未来新品动态 —— 大浪资讯独家报道》

admin632025-03-10 09:59:17

智元机器人发布创新大模型Genie Operator-1，引领具身智能新纪元

2023年3月10日，北京讯 —— 创新科技领军者“稚晖君”的创业项目——智元机器人，今日正式推出其首个通用具身基座模型——智元启元大模型（Genie Operator-1）。这一突破性的技术成果，不仅标志着智元在人工智能领域的又一重要进展，也为具身智能的发展开辟了新的道路。

ViLLA架构：开创性的技术突破

Genie Operator-1的核心是其独特的ViLLA（Vision-Language-Latent-Action）架构。这一架构由VLM（多模态大模型）和MoE（混合专家）两部分组成，实现了通过人类视频学习，实现小样本快速泛化，有效降低了具身智能的门槛。更重要的是，该架构已成功应用于智元多款机器人本体。

AgiBot World：海量数据助力模型发展

为了支持Genie Operator-1的发布，智元在2024年底推出了AgiBot World，这是一个包含超过100万条轨迹、217个任务、涉及五大场景的大规模高质量真机数据集。基于这一数据集，智元正式发布了Genie Operator-1（GO-1）。

ViLLA架构详解

ViLLA架构的三大关键组成部分如下：

VLM（多模态大模型）：通过海量互联网图文数据，VLM获得了通用场景感知和语言理解能力。
MoE（混合专家）中的Latent Planner（隐式规划器）：借助大量跨本体和人类操作视频数据，Latent Planner获得了通用的动作理解能力。
MoE（混合专家）中的Action Expert（动作专家）：借助百万真机数据，Action Expert获得了精细的动作执行能力。

性能卓越，成功率提升显著

通过ViLLA架构，智元机器人在五种不同复杂度的任务上对GO-1进行了测试。结果显示，GO-1的成功率相比现有最优模型大幅提升，平均成功率提高了32%（从46%提升至78%），在“倒水”、“清理桌面”和“补充饮料”等任务上表现尤为出色。

ViLLA架构的额外验证

智元机器人还单独验证了ViLLA架构中Latent Planner的作用，结果显示，增加Latent Planner可以提升12%的成功率（从66%提升至78%）。

Genie Operator-1：多维度优势

GO-1大模型凭借以下四个方面的优势，成为具身智能领域的佼佼者：

人类视频学习：GO-1大模型能够结合互联网视频和真实人类示范进行学习，增强对人类行为的理解，更好地服务于人类。
小样本快速泛化：GO-1大模型具有强大的泛化能力，能够在极少数据甚至零样本下泛化到新场景、新任务，降低具身模型的使用门槛。
一脑多形：GO-1大模型是通用机器人策略模型，能够在不同机器人形态之间迁移，快速适配到不同本体，实现群体升智。
持续进化：GO-1大模型搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习，越用越聪明。

未来展望

智元机器人还预告了下一代具身智能机器人产品的研发，但目前尚未透露具体的推出时间。

论文链接

欲了解更多详情，请参阅智元机器人发布的论文链接：https://agibot-world.com/blog/agibot_go1.pdf

注意：以上内容为改写后的博客发布排版，旨在提供更流畅、更易于阅读的文本。

随机文章

侧栏广告位

《稚晖君倾力打造，GO-1通用具身基座大模型惊艳亮相，前瞻未来新品动态 —— 大浪资讯独家报道》

智元机器人发布创新大模型Genie Operator-1，引领具身智能新纪元

相关文章