我国首推通用型实体基础平台模型正式亮相

admin82025-03-10 14:54:39

智元机器人发布创新大模型GenieOperator-1,引领机器人智能新纪元

(上海,2023年3月10日) —— 在人工智能领域再掀波澜,上海机器人初创公司智元机器人今日正式推出其革命性的大模型——智元启元大模型GenieOperator-1(简称GO-1)。作为中国首个通用具身基座模型,GO-1的问世标志着我国在机器人智能领域迈出了重要一步。

泛化能力强,降低使用门槛

智元机器人透露,GO-1模型具备卓越的泛化能力,即便在数据稀缺甚至零样本的情况下,也能在新场景和新任务中实现有效泛化。这一特性显著降低了具身模型的应用门槛,并大幅减少了后续训练成本。

ViLLA架构:创新性学习架构

GO-1的核心在于其独创的Vision-Language-Latent-Action(ViLLA)架构。该架构通过结合VLM(多模态大模型)和MoE(混合专家)技术,实现了对人类视频的学习,并能在小样本数据下实现快速泛化。

  • VLM:利用海量互联网图文数据,VLM获得了强大的通用场景感知和语言理解能力。
  • MoE:其中的Latent Planner(隐式规划器)借助丰富的跨本体和人类操作数据,掌握了通用的动作理解能力;Action Expert(动作专家)则通过百万真实机器数据,实现了精准的动作执行。

在推理过程中,VLM、Latent Planner和Action Expert三者协同作业,确保了模型的准确性和高效性。目前,智元启元大模型已成功部署于智元多款机器人本体上。

AgiBot World数据集:突破数据困境

2024年年底,智元机器人发布了AgiBot World百万真机数据集,尽管该数据集是目前最大的机器人真机示教数据集,但高质量带动作标签的真机数据量仍然有限。为了解决这一数据困境,智元机器人采用了Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,并通过Latent Planner预测这些动作,从而将真实世界的动作知识转移到通用操作任务中。

GO-1大模型:测试表现卓越

智元机器人通过ViLLA架构对GO-1大模型进行了五种不同复杂度任务的测试,结果显示,GO-1的平均成功率相比现有最优模型提高了32%。特别是在“倒水”、“清理桌面”和“补充饮料”等任务中,GO-1的表现尤为出色。

数据回流系统:持续进化学习

值得一提的是,GO-1大模型还可与智元一整套数据回流系统相配合,从实际执行中遇到的问题数据中持续进化学习,实现“越用越聪明”的效果。

智元机器人的这一创新成果,无疑为机器人智能领域带来了新的可能性,也为未来机器人技术的发展奠定了坚实基础。