![]() |
告别动作编程!智元UniVLA让机器人"自学成才"
当清晨的阳光照进房间,你对着机器人说出"准备一份早餐"的指令,它便流畅地操作咖啡机、煎蛋器——这般科幻场景正因智元机器人的UniVLA系统加速照进现实。近期开源的这个通用策略框架,通过解构人类行为视频的底层语义,使机器首次获得"观察学习"能力。智元技术团队用事实证明:无需千万条人工标注,机器人同样能掌握复杂生活技能。
传统机器人学习存在数据、场景、本体三重枷锁,过度依赖昂贵真机采集(OpenVLA需2万+条示范)、训练过的厨房无法适配新客厅布局、更换机械臂时需重建全部动作空间。而智元机器人的破局之道在于创建"任务语义枢纽",通过系统自动分解人类操作视频为"目标-约束-动作"三元组。在关台灯案例中,它能抽象出"定位光源-避免碰倒物品-精确按压"的核心逻辑,而非记忆具体关节角度。当给到语言指令"给猫喂食"时,也会被映射到隐式动作空间的喂养原型,触发开罐、称量、倾倒等原子操作组合。测试显示,该方法在跨任务泛化中成功率提升18.5%。而12M微型解码器如同动作翻译官,将隐空间指令转化为不同机器人的控制码。
尤为重要的是,智元方案通过分析网络烹饪视频,机器人自主总结出了"煎炒焖炖"的动作范式;学习家居博主收纳视频后,竟能创造性组合出"玩具分类整理"的新技能。这种开放环境学习能力不仅打破了数据壁垒,更使其在AgiBot World Challenge @ IROS 2025中成为基准模型。 从实验室到开源社区,从工业场景到家庭服务,UniVLA正在重塑机器智能的习得方式。智元机器人用隐式动作空间这把钥匙,解开了跨本体泛化的难题。当机器人能像人类一样通过观察视频掌握技能,或许在不远的将来,每个家庭配置个性化机器管家将成为智元技术普惠的最佳注脚。
|
|||||||||||