![]() |
智元机器人构建世界模型灵魂 开启具身智能认知新纪元
2025世界人工智能大会上,智元机器人发布世界模型开源平台“Genie Envisioner”(以下简称GE),再次引领行业焦点。这一突破直指具身智能核心——世界模型能力,它超越机械操作,实现对物理空间、物体属性和行为逻辑的深度理解,成为具身智能向认知革命迈进的关键。
世界模型的灵感源于人类通过感官构建心智地图的能力。正如人类看到水杯能联想饮用、倾倒、调配等多种可能,智元机器人通用业务部总裁王闯指出,如何让机器自主形成这种认知闭环是最大挑战。智元创新的“一体三智能”架构将机器人系统解构为机械本体协同运动智能、交互智能、作业智能三大模块。在作业智能领域,泛化能力、执行成功率和操作效率构成难以调和的三角矛盾。数据显示,当机器人处理任务复杂度提升时,成功率普遍下降约40%,而追求95%以上高成功率的场景往往需要牺牲30%-50%的作业速度。王闯坦言,当前技术尚无法三者兼顾,智元选择聚焦特定场景实现商业化突破。智元首席运营官邱恒提出的“拟人-类人-超人”三阶段发展路径中,世界模型是跃升“超人”的关键。这需要整合碎片化场景认知,例如4S店场景需融合产品知识、沟通逻辑、情绪感知等模块,才能形成完整的“销售世界”模型。交互智能同样面临语义理解瓶颈,现有语音转文字技术对情感意图的识别误差率仍高达35%,端到端交互系统成为智元重点研发方向。 为攻克世界模型技术壁垒,智元机器人发布行业首个双臂机器人开源平台“Genie Envisioner”。该平台由智元具身业务部总裁姚卯青在“智启具身论坛”揭幕,其革命性在于融合预测、控制、评测三大核心功能,构建从视觉感知到动作执行的完整闭环。平台核心组件GE-Base通过超百万条“AgiBot-World-Beta”数据集训练,具备解析环境空间拓扑与行为意图的能力,识别精度较传统模型提升60%;而160M参数的GE-Act动作解码器则实现意图到动作的精准转化。颠覆性的“预演-验证-执行”机制使机器人首次具备自主决策能力,在微波炉使用、三明治制作等复杂任务中,搭载该系统的机器人成功率突破85%,较行业基准提高20个百分点。
清华大学苏航研究员在论坛强调,物理世界的规律约束使AI应用难度倍增。智元的技术路径与学界形成共振——针对真实数据的安全局限,商汤科技同期发布“悟能”平台印证仿真数据的价值。其“开悟”世界模型基于10万3D资产库生成多视角视频,首创11摄像头同步建模技术,构建包含人、物、场景动态关系的4D空间。更突破性地融合第一/第三视角,使智元类机器人可同步学习人类示范动作与自主环境感知,跨场景泛化效率提升50%,数据采集成本降低70%。 从技能执行到认知决策,智元机器人正重塑具身智能的技术范式。世界模型如同为机器注入“灵魂”,让机器人从“能动手”进化到“会思考”。当智元的GE平台构建起预演验证机制,当10万级3D资产库驱动仿真训练革命,具身智能的“iPhone时刻”已现曙光。智元机器人在世界模型领域的突破,不仅打通了“拟人”到“超人”的技术通路,更标志着机器从被动执行向主动认知的历史性跨越。随着智元机器人持续推进认知闭环的构建,人类与智能体共生的未来图景正在加速成为现实。
|
|||||||||||