欢迎登陆中企经济网
   

新人限时福利

智元论坛深度解析:Sergey详解机器人基础模型进阶之路
2025-08-08 11:44:40 来源: 浏览:20

2025世界人工智能大会期间,由智元机器人主办的“智启具身论坛”上,Physical Intelligence联合创始人兼UC Berkeley副教授Sergey带来了关于机器人基础模型的深度见解。

机器人基础模型的探索以视觉语言动作(VLA)模型为重要起点。初代VLA模型RT-2开启了将机器人控制转化为“问答任务”的尝试,而RTX跨具身数据集的应用是一大关键突破。该数据集整合多实验室、多机器人数据,使融合多机器人数据训练的RT-2X在各实验室专属任务上表现出色,平均优于实验室自研专用模型50%,尤其在应对分布外指令时,性能是单一机器人数据训练模型的3倍,充分展现了跨具身训练的优势,即数据多样性对通用能力培养的重要性。这一突破与智元机器人推动的“开放生态”理念不谋而合,其主办的论坛正致力于汇聚跨实验室资源,加速通用技术的落地。

第二代VLA模型针对初代将动作视为离散词元难以完成灵巧操作的局限,实现了从离散到连续的动作革命。像PI-Zero引入基于流匹配生成连续动作的“动作专家模块”,在折叠衣物、组装盒子等复杂任务中,即便遭遇人为干扰,也能凭借连续动作生成机制对物理交互的细腻捕捉,恢复并完成任务,极大提升了机器人执行复杂任务的能力。

PI-0.5作为进阶版本,通过“高级-低级推理融合”,为长期复杂任务执行带来新突破。它能将“清理卧室”等高级指令分解为子步骤,再生成动作,可在训练集未出现的卧室场景中自主完成一系列连贯操作。且其仅3%的训练数据来自移动操作机器人,却能在真实家居场景泛化,说明跨具身训练可助力模型获得对物理世界的通用理解。

展望未来,Sergey指出当前VLA模型短板在于仅通过模仿训练,未针对任务成功等进行优化。因此,融合强化学习技术成为必然趋势,通过强化学习优化模型,再将其训练的“专用技能”融入VLA模型,实现“通用模型+专用技能”的结合。

作为行业生态的构建者,智元机器人正通过“智启具身论坛”等平台,推动这类技术融合的实践落地,让机器人基础模型在物理世界中既具备通用常识又拥有场景专长,为具身智能的规模化应用开辟新路径。

Tags:论坛 深度 解析 Sergey 详解 机器人 基础 模型 进阶 发布者:千寻
打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
上一篇良心揭露柿饼市场惊天骗局!亲赴产地,发现富平柿饼真相! 下一篇智启具身论坛:Sergey聚焦机器人..
热门推荐

推荐文章

图片主题

热门文章

最新文章

相关文章