机器人前瞻(公众号:robot_pro)
作者:许丽思
编辑:漠影
3月10日,智元机器人重磅发布——首个通用具身基座模型智元启元大模型Genie Operator-1(GO-1)。这一创新成果,标志着智元机器人技术领域的又一里程碑。
突破性框架,引领未来
GO-1模型提出了Vision-Language-Latent-Action (ViLLA)框架,由VLM(多模态大模型)+MoE(混合专家)组合而成,具备采训推一体化、小样本快速泛化、“一脑多形”的跨本体应用、持续进化、人类视频学习等多项显著优势。
未来展望,更多惊喜
智元机器人还透露,未来几个月将推出基于强化学习的仿真模型,并计划推出全新的人形机器人。
一、小样本快速泛化,快速适配不同本体
ViLLA框架的核心是VLM(多模态大模型)+MoE(混合专家)。具体而言,VLM作为通用具身基座大模型的主干网络,继承了开源多模态大模型5-2B的权重,并利用互联网大规模纯文本和图文数据,赋予了智元机器人的Genie Operator-1(GO-1)强大的通用场景感知和理解能力。
MoE中的隐动作专家模型是整个大模型中的隐式规划器,它利用互联网上的大规模人类操作和跨本体操作视频,使模型具备了动作的理解能力。而MoE中的动作专家模型,则利用高质量的仿真数据和真机数据,让模型具备了动作的精细执行能力。
Genie Operator-1的五大特点:
- 采训推一体:搭配智元软硬件一体化框架,实现数据采集、模型训练、模型推理的无缝衔接。
- 小样本快速泛化:强大的泛化能力使得后训练成本极低,即使在极少数据甚至零样本的情况下,也能泛化到新场景、新任务。
- 一脑多形:通用机器人策略模型,能在不同机器人形态之间迁移,快速适配到不同本体。
- 持续进化:搭配智元一整套数据回流系统,从实际执行遇到的问题数据中持续进化学习。
- 人类视频学习:结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。
二、海量知识数据,一句指令即行动
Genie Operator-1(GO-1)基于具身领域的数字金字塔构建,底层是互联网的大规模纯文本与图文数据,帮助机器人理解通用知识和场景。之上是互联网的大规模人类操作/跨本体视频,帮助机器人学习动作操作模式。金字塔的顶层则是高质量的真机示教数据,用于训练精准动作执行。
ViLLA框架的强大功能:
GO-1所采用的ViLLA框架,可以将输入的多相机视觉信号和人类语言指令,直接输出机器人的动作执行。与Vision-Language-Action(VLA)模型相比,ViLLA通过预测Latent Action Tokens(隐式动作标记),弥合了图像-文本输入与机器人执行动作之间的鸿沟。
例如,用户用平常讲话的方式告诉机器人要做的事情,如“挂衣服”,模型可以将其拆解成几个步骤来处理:
- 模型根据看到的画面和所学习的大规模纯文本和图文数据,理解“挂衣服”在此情此景下的含义和要求。
- 模型学习过互联网的人类操作视频和其他机器人的操作视频,知道挂衣服通常包括哪些环节。
- 模型学习过仿真的不同衣服、不同衣柜、不同房间,模拟过挂衣服的操作,理解环节中对应的物体和环境,打通整个任务过程。
- 由于学习过真机的示教视频,机器人能精准完成整个任务的操作。
GO-1的应用场景:
GO-1的应用前景广阔,可以应用于各种场景,如:
- 早上起床,机器人可以帮您倒水、烤吐司,甚至去活动现场检票、发放物料。
- 商务会议中,面对人类的语音指令,如“帮我拿一瓶饮料”“帮我拿一个苹果”,GO-1可以快速响应。
- 通过数据回流,GO-1可以持续进化,例如,在制作咖啡时,如果机器人不小心把杯子放歪了,它可以从遇到这个问题数据中持续进化学习,直到成功完成任务。
结语:具身智能加速迈向通用化、开放化与智能化
GO-1的出现,为机器人代替人类完成工作生活中的各种事情提供了强大的脑力支持。从准备餐食、收拾桌面这样的家庭场景任务,到接待访客、发放物品这类办公和商业场景的常见工作,再到工业等更多场景的其他操作任务,通用具身基座大模型都可以快速实现。这也意味着具身智能从单一任务到多种任务、从封闭环境到开放世界、从预设程序到指令泛化加速迈进,让机器人走向更多不同场景、适应多变的真实世界。