AI导读:

上海智元机器人公司发布全国首个通用具身基座大模型GO-1,该模型能通过观看人类操作视频学习,适应多样场景和任务,显著降低具身模型应用门槛。GO-1在五种不同复杂度任务测试中表现卓越,平均成功率提升32%,标志着机器人‘大脑’正日渐成熟。

  上海人形机器人领域迎来重大突破。3月10日,智元机器人公司发布了全国首个通用具身基座大模型GO-1(Genie Operator-1),并已成功部署于多款机器人本体。据悉,GO-1能通过观看人类操作视频学习,还能在极少数据甚至无样本的情况下,使机器人适应多样场景和任务,极大地降低了具身模型的应用门槛。

依托百万级真机数据构建

  “GO-1大模型基于具身领域的数字金字塔架构,融合了多维度、多类型的人类世界数据。”智元合伙人、具身业务部总裁姚卯青向记者展示了这一数字金字塔模型。

智元展示的数字金字塔架构。

  该金字塔的底层由互联网的大规模纯文本与图文数据构成,助力机器人理解通用知识与场景;第二层包含大规模人类操作及跨本体视频,帮助机器人学习人类或其他本体的动作模式;第三层为仿真数据,用于提升机器人的泛化能力,使其适应不同场景与物体;顶层则是高质量的真机示教数据,专门用于训练精准动作执行。

  然而,传统的VLA(视觉语言动作)架构因无法充分利用大规模人类及跨本体操作视频数据,导致迭代成本高、进化速度慢。

  以往,机器人主要依赖网络的图文数据及仿真数据进行行为模仿,但缺乏真人“手把手”的教学指导。

  为解决具身智能的数据难题,智元于去年底推出了AgiBot World真机数据集,包含超百万条轨迹、217个任务、五大场景。基于此数据集,智元成功发布了GO-1大模型。

智元推出全国首个具身通用大模型GO-1。

  在AgiBot World诞生之前,谷歌曾构建了开源数据集Open X-Embodiment用于不同机器人的训练,但由于数据缺乏统一标准化的采集流程,质量参差不齐。

  相比之下,智元的AgiBot World数据集从基础操作到复杂交互,几乎涵盖了日常生活所需的所有动作需求,其长程数据规模高出10倍,场景范围扩大100倍,数据质量提升至工业级标准。

  “这些数据看似基础,但精度和涵盖面均属全球顶级。”上海智元机器人渠道销售总监刘强表示。

平均成功率提升32%

  在高质量数据的支撑下,更先进的技术架构也至关重要。

  智元提出了全新的ViLLA(视觉语言隐式动作)架构,与VLA架构相比,能通过预测隐式动作标记(Latent Action Tokens),弥合图像—文本输入与机器人执行动作之间的鸿沟,显著增强机器人的泛化能力。

  在五种不同复杂度的任务测试中,GO-1相比已有最优模型,成功率大幅提升,平均提高32%,尤其在倒水、清理桌面、补充饮料三项任务中表现突出。这意味着GO-1在真实世界的灵巧操作和长时任务方面表现卓越,远超最先进的开源具身基座模型。

测试显示,GO-1性能全球领先。

  姚卯青指出,GO-1大模型能为机器人提供全面的“基础教育”和“职业教育”,天然适应新场景,轻松应对多样环境和物体,快速学习新操作。

  以“挂衣服”为例,模型可根据画面理解任务要求,设想操作步骤,并执行完成。这一过程包括:理解任务、学习操作步骤、仿真模拟、精准执行。

  随着GO-1大模型的推出,机器人“大脑”正日渐成熟。

  作为通用具身基座大模型,GO-1不再受机器人型号、场景限制,具备泛化能力,可支持不同机器人快速适应新任务、学习新技能。

  姚卯青介绍,GO-1能结合互联网视频和真实人类示范学习,增强对人类行为的理解。通过强大的泛化能力,GO-1能在极少数据或无样本情况下适应新场景、新任务,降低了使用门槛和后训练成本。

  此外,GO-1还配备了智元的数据回流系统,能从实际执行中遇到的问题数据中持续学习进化,变得更加智能。

  通用大模型与具身智能的结合,标志着机器人正迈向AGI(通用人工智能)的崭新阶段,具身基座大模型的出现,也意味着机器人的“大脑”正逐步成熟。

  过去,机器人虽能完成如“擦桌子”“拉小提琴”等任务,但仅是执行预设程序,缺乏自主完成任务的能力和真正智能。如今,随着具身智能的不断演进,机器人已实现从单一任务到多任务、从封闭环境到开放世界、从预设程序到指令泛化的三层进化。

  “目前,机器人能在不同场景中执行多样任务,无需针对新任务重新训练,也不再局限于预设程序,能理解自然语言指令,并具备一定推理能力。”姚卯青表示,机器人一旦“听懂人话”,将在商业、工业、家庭等多领域发挥更大作用。

(文章来源:上观新闻)