新闻中心

机器人学习也要提速提质! 智元机器人发布首个通用具身基座大模型

2025-03-15 03:42:35

来源:

机器人学习也要提速提质!? 智元机器人发布首个通用具身基座大模型

去年已实现量产近千台的人形机器人公司智元机器人再度对外宣布重磅消息。

3月10日,该公司正式发布首个通用具身基座大模型,即智元启元大模型(GenieOperator-1)。“GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。”

值得关注的是,智元机器人方面介绍,GO-1大模型还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

2024年底,智元机器人年推出了AgiBotWorld,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。然而,如何有效利用高质量的AgiBotWorld数据集以及互联网大规模异构视频数据?这仍然是关键。

智元介绍,数字金字塔的底层是互联网的大规模纯文本与图文数据,可以帮助机器人理解通用知识和场景;在这之上是大规模人类操作/跨本体视频,可以帮助机器人学习人类或者其他本体的动作操作模式;更上一层则是仿真数据,用于增强泛化性,让机器人适应不同场景、物体等;金字塔的顶层,则是高质量的真机示教数据,用于训练精准动作执行。

“现有的VLA(Vision-Language-Action)架构,未有利用到数字金字塔中大规模人类/跨本体操作视频数据,缺少了一个重要的数据来源,导致迭代的成本更高,进化的速度更慢。”基于这一现实,智元此次提出了Vision-Language-Latent-Action(ViLLA)架构。

据介绍,该架构由VLM(多模态大模型)+MoE(混合专家)组成。其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的LatentPlanner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的ActionExpert(动作专家)则借助百万真机数据获得精细的动作执行能力。

也就是说,与VLA架构相比,ViLLA通过预测LatentActionTokens(隐式动作标记),弥合了图像-文本输入与机器人执行动作之间的鸿沟,能有效利用高质量的AgiBotWorld数据集以及互联网大规模异构视频数据,增强策略的泛化能力。

智元机器人称,在推理时,VLM、LatentPlanner和ActionExpert三者协同工作:VLM采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;LatentPlanner是MoE中的一组专家,基于VLM的中间层输出预测LatentActionTokens作为CoP(ChainofPlanning,规划链),进行通用的动作理解和规划;ActionExpert是MoE中的另外一组专家,基于VLM的中间层输出以及LatentActionTokens,生成最终的精细动作序列。

“实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上一个新台阶。”智元机器人方面表示。

根据该公司给出的数据,通过Vision-Language-Latent-Action(ViLLA)架构,其在五种不同复杂度的任务上测试GO-1,相比已有的最优模型,GO-1平均成功率提高了32%(46%->78%)。其中“PourWater”(倒水)、“TableBussing”(清理桌面)和“RestockBeverage”(补充饮料)任务表现尤为突出。此外还单独验证了ViLLA架构中LatentPlanner的作用,其可以提升12%的成功率(66%->78%)。

智元机器人称,智元通用具身基座大模型GO-1的推出,标志着具身智能向通用化、开放化、智能化方向快速迈进。

智元机器人于2023年2月成立于上海临港新片区,其临港工厂也已于2024年10月开始生产,这也是上海首座人形机器人量产工厂。据悉,智元机器人还计划在上海张江建设年产能在1万台左右的人形机器人的二期工厂。截至目前,该公司主要有三条主打产品线,分别为远征、Genie和灵犀。

男子遇偷狗贼后站房顶丢砖头猛砸似锦疯批母女联手抢女婿牙刷评价竟有内裤严重掉色迪丽热巴替人尴尬的毛病又犯了2名女生西湖自划船被困2小时乌军装甲车遭双无人机袭击黄晓明在线辟谣输了十个亿学习了一个哄娃新方法陈垣宇2比3卡尔伯格美作家:到访中国后我不再害怕中国

(内容来源:上游新闻)

作者: 编辑:蒋欣怡

  • 越牛新闻客户端

  • 越牛新闻微信

  • 绍兴发布微信

  • 越牛新闻微博

  • 绍兴发布微博

爆料

新闻热线

0575-88880000

投稿信箱

zjsxnet@163.com