欢迎登陆中企经济网
   

新人限时福利

智元机器人x香港大学全新UniVLA框架,实现VLA领域的全新突破
2025-10-15 17:45:40 来源: 浏览:20

在机器人技术不断演进的当下,许多现有系统仍困于数据单一与动作空间僵化的问题,难以应对未经训练的任务或陌生环境,泛化能力面临严峻挑战。为此,智元机器人与香港大学共同研发了UniVLA——一种跨本体、场景任务的通用策略学习系统。该系统通过构建以任务为核心的隐式动作空间,深度融合语言指令与视频示范,实现了从感知视觉信息、理解自然语言到执行物理操作的通用控制闭环。这一成果已被机器人顶会RSS 2025认可,同时代码也已经开源,并成为全球顶尖机器人赛事 AgiBot World Challenge @ IROS 2025的基准模型之一。

传统机器人模型如RT-2、OpenVLA等,虽在通用化上有一定进步,却仍存在明显局限:其一,训练数据多依赖人工采集的真机示范,未能充分挖掘互联网中丰富多样的视频资源;其二,缺乏跨平台适配能力,更换机器人硬件常需重新定义动作空间;其三,自回归预测方式导致推理速度迟缓,且错误易累积,影响执行稳定性。

UniVLA另辟蹊径,不再直接预测每一步的具体动作,而是构建一个任务导向的隐式动作空间。这一空间作为中间表征,将视觉观察与语言指令映射为紧凑的隐式动作序列,再通过轻量解码器转换为实际控制信号。其核心创新在于:通过逆动力学建模与VQ-VAE离散化,从海量无标签视频(如Ego4D)中学习高度泛化的动作表示;借助Prismatic-7B等大模型架构进行预训练,实现具身无关的通用策略;最终仅需微调即可快速部署至不同机器人平台。

相比OpenVLA等模型,UniVLA展现出多方面的优势:隐式动作空间显著压缩了数据维度,将推理速度提升至10Hz以上;通过利用人类视频数据,泛化范围大幅扩展,在LIBERO、CALVIN等操控基准测试中,任务成功率平均提升18.5%;更值得注意的是,仅使用10%的训练数据,UniVLA即在LIBERO-Goal上达到62.4%的成功率,远超同类模型。其简单动作解码器(参数量仅12M)支持高频率闭环控制,在“清理案板”、“叠汉诺塔”等任务中实现超过80%的平均成功率,且推理延迟显著降低。

UniVLA的突破不仅体现在性能提升,更在于其结构化设计赋予的扩展潜力:通过隐式动作空间,系统可灵活融入更多人类示范数据,并仅需少量调整即可迁移至新机器人平台,真正实现跨本体、跨场景与跨任务的通用学习。

Tags:机器人 香港 大学 全新 UniVLA 框架 实现 VLA 领域 突破 发布者:千寻
打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇良心揭露柿饼市场惊天骗局!亲赴产地,发现富平柿饼真相! 下一篇智元双成果EVAC+EWMBench开源,破..
热门推荐

推荐文章

图片主题

热门文章

最新文章

相关文章