![]() |
智元机器人GO-1大模型全面开源,降低开发门槛加速行业创新
9月23日,智元机器人正式宣布开源其通用具身基座大模型GO-1(Genie Operator-1),该模型基于Vision-Language-Latent-Action(ViLLA)架构打造,成为全球首个采用这一先进架构并免费向开发者开放的具身智能模型。此举有望大幅降低行业技术门槛,推动具身智能技术的普及与发展。
GO-1所采用的ViLLA架构在传统Vision-Language-Action(VLA)基础上引入隐式动作标记,有效弥合了图像-文本输入与机器人动作执行之间的语义差距。该架构包含三层协同机制:VLM多模态理解层基于InternVL-2B构建,支持多视角视觉、力觉和语言信息的融合理解;Latent Planner通过预测隐式动作标记实现对复杂任务的高层规划;Action Expert则依托扩散模型生成高频率、高精度的连续动作序列,保障机器人执行的细腻控制。
为支持开发者高效使用GO-1,智元机器人同步推出Genie Studio一站式开发平台,提供从数据采集、管理、训练与微调,到仿真评测和真机部署的全流程工具链。该平台集成Video Training方案和统一训练框架,支持一键编译与部署,显著提升开发效率。 尽管GO-1基于AgiBot G1机器人数据进行预训练,但其在松灵机器人、方舟机器人、Franka机械臂等多种异构本体上均通过验证,表现出良好的跨平台适应性。在Genie Sim和Libero等仿真环境中,GO-1也展现出领先的性能。通过集成通用LeRobot数据格式,该模型可支持更多类型机器人的数据采集、微调与部署。 目前,GO-1模型代码与相关资源已在GitHub和Huggingface平台发布,开发者可免费获取并使用该模型,开启具身智能的应用探索与创新实践。
|
|||||||||||