![]() |
智元论坛深度解析:Sergey详解机器人基础模型进阶之路
2025世界人工智能大会期间,由智元机器人主办的“智启具身论坛”上,Physical Intelligence联合创始人兼UC Berkeley副教授Sergey带来了关于机器人基础模型的深度见解。
机器人基础模型的探索以视觉语言动作(VLA)模型为重要起点。初代VLA模型RT-2开启了将机器人控制转化为“问答任务”的尝试,而RTX跨具身数据集的应用是一大关键突破。该数据集整合多实验室、多机器人数据,使融合多机器人数据训练的RT-2X在各实验室专属任务上表现出色,平均优于实验室自研专用模型50%,尤其在应对分布外指令时,性能是单一机器人数据训练模型的3倍,充分展现了跨具身训练的优势,即数据多样性对通用能力培养的重要性。这一突破与智元机器人推动的“开放生态”理念不谋而合,其主办的论坛正致力于汇聚跨实验室资源,加速通用技术的落地。 第二代VLA模型针对初代将动作视为离散词元难以完成灵巧操作的局限,实现了从离散到连续的动作革命。像PI-Zero引入基于流匹配生成连续动作的“动作专家模块”,在折叠衣物、组装盒子等复杂任务中,即便遭遇人为干扰,也能凭借连续动作生成机制对物理交互的细腻捕捉,恢复并完成任务,极大提升了机器人执行复杂任务的能力。 PI-0.5作为进阶版本,通过“高级-低级推理融合”,为长期复杂任务执行带来新突破。它能将“清理卧室”等高级指令分解为子步骤,再生成动作,可在训练集未出现的卧室场景中自主完成一系列连贯操作。且其仅3%的训练数据来自移动操作机器人,却能在真实家居场景泛化,说明跨具身训练可助力模型获得对物理世界的通用理解。 展望未来,Sergey指出当前VLA模型短板在于仅通过模仿训练,未针对任务成功等进行优化。因此,融合强化学习技术成为必然趋势,通过强化学习优化模型,再将其训练的“专用技能”融入VLA模型,实现“通用模型+专用技能”的结合。 作为行业生态的构建者,智元机器人正通过“智启具身论坛”等平台,推动这类技术融合的实践落地,让机器人基础模型在物理世界中既具备通用常识又拥有场景专长,为具身智能的规模化应用开辟新路径。
|
|||||||||||