通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  中尉

注册:2015-11-143
跳转到指定楼层
1#
发表于 2025-1-20 11:22:17 |只看该作者 |倒序浏览





机器人前瞻(公众号:robot_pro)

作者|许丽思

编辑|漠影

继机器人在CES上托举起英伟达新一代显卡产品RTX5090,大出风头后,银河通用又有新动作了。

机器人前瞻1月10日报道,昨天,银河通用联合北京智源人工智能研究院(BAAI)及北京大学和香港大学发布了全球首个端到端具身抓取基础大模型(Foundation Model)GraspVLA。

GraspVLA是全球首个完全基于仿真合成大数据进行预训练的具身大模型,展现出比OpenVLA、π0、RT-2、RDT等模型更强大的泛化能力和在真实场景中的实用潜力。

该模型的训练数据达到了有史以来最大的数据体量——十亿帧“视觉-语言-动作”对,掌握泛化闭环抓取能力、达成基础模型。预训练后,模型可直接Sim2Real在未见过的、千变万化的真实场景和物体上零样本测试,全球首次全面展现了七大卓越的泛化能力,满足大多数产品的需求。

而针对特别需求,后训练仅需小样本学习即可迁移基础能力到特定场景,维持高泛化性的同时形成符合产品需求的专业技能,具备巨大的低成本商业化潜力。

一、七大全面泛化能力,VLA预训练实现多场景泛化

近来,虽然具身大模型虽在泛化性上取得一定进展,但端到端具身大模型的泛化性仍然达不到真实需求,无法支撑产品落地。

对此,团队首次给出了VLA达到基础模型需满足的七大泛化金标准,展现了GraspVLA单一模型在各种均未见过的场景和物体中进行零样本测试的结果。

1、光照泛化

团队模拟了在咖啡厅、便利店、生产车间、KTV等真实工作环境中的光线条件,在光线条件呈现出冷暖、强弱等多种变化,甚至是完全变为黑暗时,GraspVLA都可以准确、快速地找到目标物体。



2、背景泛化

团队对桌布图案进行的变换,面对红色花纹桌布、星空图案图案、拼色垫板等,GraspVLA皆不受影响。



面对快速变化的动态背景画面,GraspVLA亦不受影响。团队还表示,GraspVLA采用双相机视角作为输入,演示视频拍摄的视角对应了机器人正面的相机视角。



3、平面位置泛化

把物体在桌面随意挪动、变换方位,GraspVLA依旧可以随机应变,准确找到物体。



4、空间高度泛化

团队将多种小球在不同高度下进行错落摆放,模型可以依次准确找到对应的物体。



5、动作策略泛化

GraspVLA还可以实时进行推理决策,当研究人员突然移动桌面上矿泉水瓶位置时,模型也会及时发现,调整抓取策略。



6、动态干扰泛化

机器人在正常工作过程中,研究人员突然往其工作空间中随意增加了许多干扰物体,物体之间发生了碰撞并导致移位,GraspVLA依然能够稳定地完成任务。



7、物体类别泛化

团队表示,上述测试中,所有物体、场景、摆放方式均未进行任何训练,GraspVLA仅通过仿真合成数据学习到的语义和动作能力,实现了在真实世界中零样本泛化测试。

此外,通过把仿真合成的动作数据和海量互联网语义数据巧妙地联合训练,对于没有学习过动作数据的物体类别,GraspVLA也能把已掌握的动作能力泛化迁移。



二、少量样本训练,快速对齐产品特殊需求

七大泛化金标准,已经证明了GraspVLA能够满足绝大多数应用需求,但在部分场景、产品中,依旧有一些的特殊需求。

团队通过在商超、工厂及家庭的三大场景中的特殊要求,检验了GraspVLA在少量样本训练后就能够实现对新需求进行快速适应及迁移,在不同场景中针对特定需求规模化应用时,可以实现低成本高效拓展。

1、迅速服从指定规范并“举一反三”

例如,在商超场景中,虽然GraspVLA具有泛化的抓取能力,预训练后即可轻松抓取指定商品。但是面对多瓶相同的怡宝矿泉水,用户需要模型要按照特定顺序进行抓取,而模型可能不知道要从哪里入手合适。



对此,团队仅需采集少量(少于一个人遥操一天)的真实数据,就能让GraspVLA理解并满足按序抓取的需求,挨个从右往左、从上至下进行抓取。





只经过怡宝一人天(一个人遥操一天)采集数据的后训练,GraspVLA就能够举一反三,将这种少样本习得的行为自动迁移到其他品牌的饮品(农夫山泉、东方树叶),按规定的摆放顺序分别抓取了瓶身颜色不同,瓶盖大小不一的同类商品。





2、迅速掌握新词汇,拓展新类别

在工业场景中,往往有大量行业专用的罕见特殊零件。模型很容易抓错零件,比如,命令模型抓起“车窗控制器”,它却抓去了接线座。



为了提升模型识别罕见零件的能力,团队采集少量轨迹进行快速后训练。GraspVLA迅速掌握了诸如接线座(Wiring Base)、三角板(Triangular Panel)、黑色软管(Black Hose)等特殊工业名词,能从任意摆放的密集场景中精准找出对应零件。



3、迅速对齐人类偏好

在家庭场景中,用户对机器人的行为可能会有不同的偏好要求。例如,原本GraspVLA根据指令抓起放着牙膏牙刷的杯子会碰到内壁。



但通过采集少量带用户偏好的抓取轨迹,GraspVLA就明白了抓取洗漱杯时,不能接触杯子内壁。



三、结语:合成数据开创技术新范式,推动具身智能迈向ChatGPT时刻

GraspVLA的发布,确立了以仿真合成大数据预训练为核心的具身基础大模型技术路线,就此开创该领域全新发展范式,支撑这一范式的关键正是合成大数据。通过GraspVLA在一系列不同场景、需求的表现可以看出,该模型不仅表现出强大的泛化能力,也展现出低成本大规模商业化的巨大潜力。

银河通用基于多年合成仿真数据的经验,研发出一套针对端到端VLA模型预训练的全仿真合成数据生产管线,在短短一周内就能生成全球规模最大的十亿级机器人操作数据集(包含视频-语言-动作三个模态)。

团队还表示,过去一年里还在导航VLA模型(NaVid系列模型)的研究上取得了重大突破,将陆续展示和介绍该系列导航VLA模型的泛化能力和涌现现象。

此外,团队未来还将快速推出覆盖多技能的具身基础大模型,全面整合团队从抓到放、从关节类物体到柔性物体操作的各类任务的合成数据,持续依靠合成大数据作为唯一预训练来源,推动具身智能迈向ChatGPT时刻。

来源:智东西

举报本楼

本帖有 3 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-1-22 09:14 , Processed in 0.180730 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部