Uranus:机器人开发的“裁判”与“训练场”基础设施

当前具身智能领域的竞争正聚焦于世界模型研发,不少玩家都在全力打造机器人的“核心大脑”。不过近期上线的Uranus世界模型却另辟蹊径,没有直接切入具身大脑赛道,而是转向机器人开发的底层基础设施领域,这类定位的产品在行业内并不多见。
Uranus瞄准了具身智能行业的两大核心痛点:一是现有评测基准公信力不足,二是仿真到真实场景的适配鸿沟(sim-to-real gap)问题。团队希望前者能成为客观评测VLA和世界模型的公正“裁判”,后者则打造机器人训练的标准化“场地”。
开发Uranus的团队来自地平线分拆的地瓜机器人,这家公司定位为机器人软硬件通用底座提供商,主打“卖铲”的生态服务角色。尽管同行都在争相研发机器人大脑,地瓜机器人却认为:要让机器人的脑子变聪明,首先需要一个能让模型反复试错、稳定测试并复盘成绩的平台。
首先聊聊Uranus作为行业评测基准的核心价值。当前主流的机器人评测方案主要有两类:一类是真机实测,将训练好的模型部署到实体机械臂上,在固定场景中反复执行任务并统计成功率。但这种方式不仅需要专人值守、反复重置环境,效率低下且成本高昂,同时由于环境变量难以严格控制,不同实验室很难复现相同的评测结果,公信力大打折扣。另一类是虚拟环境仿真评测,优势在于速度快、成本低且结果可复现,但最大的痛点在于仿真到真实场景的适配鸿沟——仿真环境中得到的高分往往无法在真机上重现,评测分数与模型实际落地能力严重脱节。
Uranus则走出了第三条差异化路径:用户将训练完成的模型接入平台后,系统会根据模型输出的动作实时生成对应的环境反馈,进而输出成功率、轨迹偏差等量化评测指标。这种模式兼具真机评测的真实性和仿真评测的高效性,不仅迭代效率远高于实体测试,还能严格控制变量保证结果可复现,同时评测分数与模型在真实场景中的实际表现高度匹配,大幅缩小了sim-to-real gap。
据团队介绍,他们希望将Uranus打造为行业内最具公信力的评测基准之一。算法副总裁隋伟指出,当前不少评测榜单存在刷榜争议,核心原因在于部分学术指标与真实应用场景脱节,无法充分反映实际复杂环境中的模型能力。而Uranus并不刻意规避刷榜,而是确保刷出的分数真正能够匹配模型的实际落地能力,让评测结果具备参考价值。
除了作为公正的评测裁判,Uranus同时也是一款面向操作类任务的机器人仿真工具。传统物理仿真器存在诸多痛点:手工搭建仿真场景需要耗费大量时间进行3D建模、材质调整和物理参数调校,单个新环境的搭建往往需要数天甚至数周,成本高昂且效率低下;即便投入大量精力,渲染出的画面真实性依然不足,不少仿真器为了简化流程还会粗暴省略物理规则,甚至违背能量守恒,进一步放大了sim-to-real gap。
与传统手工搭建3D世界的思路不同,Uranus直接从真实数据中学习动作与环境变化的对应关系:用户仅需要提供几帧参考图像、机器人关节状态、相机参数以及文本任务描述,就能快速生成对应的仿真场景。团队表示,Uranus生成的仿真画面真实度极高,肉眼几乎无法区分实拍与生成内容,有效缩小了仿真与真实场景的鸿沟。
Uranus的核心技术突破在于帧级闭环能力。不同于普通视频生成模型一次性输出整段视频、无法根据实时动作调整后续内容的模式,Uranus仅生成下一帧画面,新生成的帧会立刻加入历史输入窗口,结合下一步动作作为模型的新输入,用户也可以随时接管并修改动作指令,让仿真场景沿着新的轨迹发展。这种模式更像是一款可实时交互的游戏,而非按剧本拍摄的电影,完美适配机器人的闭环工作逻辑。
不过帧级闭环也面临着误差累积的核心挑战:每一步的微小预测误差都会作为历史条件带入下一步,数十步后画面可能出现模糊甚至像素崩坏。但Uranus突破了长序列闭环的技术瓶颈,尽管训练时仅使用2秒的短片段数据,推理时却可以稳定运行60秒且全程保持画质稳定。
除了帧级闭环,Uranus的另一大核心能力是跨具身零样本泛化。当前不少评测平台仅支持单一硬件本体,导致开发者不得不针对不同机器人重新搭建环境、重复测试,严重限制了技术泛化性。目前Uranus已经支持G1人形机器人和Franka协作臂,后续还将扩展支持更多类型的具身硬件。
需要注意的是,Uranus目前仅支持操作类任务的训练,暂不支持运动控制类任务。团队解释称,当前Uranus仅支持动作、图像和语言三种模态,尚未加入触觉、摩擦力、电机信号等关键数据,无法支撑运动控制场景的仿真训练。而要补充这些模态,核心在于获取足够的高质量数据,目前这类数据的成熟度依然不足。
很多人会好奇,为何地瓜机器人选择将Uranus定位为基础设施而非直接开发具身大脑?团队给出了两个关键理由。首先,大模型负责人秦文康表示,当前不少世界模型将视频生成作为辅助损失函数,但学术界并未对训练过程中视频生成的质量本身进行评价,现有世界模型生成的视频质量仍有较大提升空间。Uranus团队认为,先扎实做好视频生成质量,才能对下游的动作生成训练提供更有效的支撑。其次,还有一个反直觉的结论:做机器人基础设施的难度其实高于直接做具身大脑。具身大脑的研发有相对明确的学术成果可以参考,但仿真器这类基础设施却没有成熟的论文或范式可循。
具体来说,打造这类机器人开发基础设施需要攻克三大核心技术难关:
- 像素级生成:评测和强化学习都需要真实的图像输入,仅在隐空间进行预测无法满足需求
- 跨视角一致性:机器人往往搭载多路相机,手眼相机、环境相机和第三方视角相机的画面必须保持实时对齐
- 帧级闭环:需要实现每一步接收动作、输出反馈,并将输出结果作为下一步的输入,形成完整的闭环流程
不少机器人公司不愿投入基础设施研发,主要是因为行业普遍面临算力不足的问题,而视频训练对算力资源消耗极大且不确定性高,很多团队不愿用有限的资源去赌一个不确定的结果。作为由地平线分拆而来的机器人公司,地瓜机器人的定位是机器人软硬件通用底座提供商,类似机器人领域的英伟达,一直致力于搭建机器人研发的“地基”,提供芯片方案、开发工具、训练与部署平台。Uranus恰好可以嵌入公司的现有生态,串联起评测和强化学习训练两大核心开发环节,完美贴合行业的实际需求。
值得一提的是,Uranus的研发过程也颠覆了不少人的认知——团队将三分之二的精力和资源都投入到了看似没有技术含量的“脏活累活”中,也就是基础设施搭建和数据处理。仅基础设施搭建就耗费了团队一半以上的精力:面对PB级别的数据量,团队设计了分层存储方案来优化存储效率;在训练阶段,还需要解决数据高速访问的问题。算力方面更是遇到了不少挑战,2024年上半年全球算力资源紧张,单一云服务商无法满足需求,团队不得不花费大量时间设计跨云算力协调方案。此外,高分辨率长视频训练需要的显存远超单卡容量,团队还研发了视频分片并行计算和结果聚合的技术方案,从存储选型、算力节点部署、网络配置到上层训练数据的热存储加速,全流程都进行了重新优化。团队在完成这些工作后感慨,语言模型领域早已达成“没有基础设施就无从谈起大模型”的共识,但具身智能行业对基础设施的重视程度还远远不够。
除了基础设施,数据处理同样耗费了团队大量精力。Uranus主要基于几百小时的开源数据进行训练,但这些数据存在不少问题:部分数据存在丢帧问题需要进行切片处理,部分数据记录的动作与实际执行情况不符需要算法识别修正,还有不少数据集未做好相机标定工作。目前几百小时的数据量还远未让Uranus达到饱和,数据量的提升依然能带来模型能力的显著增长,能力增长曲线尚未出现收敛迹象。团队计划在今年下半年将训练数据扩充到几千小时量级,明年则提升至数万到十几万小时级别。
今年不少具身智能公司都提出了“百万小时数据”的目标,但隋伟对此有不同看法。他指出,一方面现有算力资源很难支撑如此庞大的数据量;另一方面,单纯堆砌数据时长的意义不大,同质化数据对模型训练的提升有限,即便采集了百万小时的数据,真正能发挥作用的可能还不到1%。比起数据数量,数据的质量和多样性才是关键。他以自动驾驶行业为例,行业内关注的并非数据总时长,而是不同时间、空间和场景下采集到的片段数量。隋伟强调,当前具身智能行业中,模型决定了研发的下限,而数据才是决定上限的核心因素。Uranus的实践也证明了这一点:仅通过优化相机标定、对齐动作与画面的对应关系、筛选脏数据,就能带来几十个百分点的成功率提升,这一效果远超单纯调整算法参数所能达到的水平。眼下行业内的不少关键工作归根到底仍是数据工程,尚未到单纯比拼模型架构的时候。
塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台,致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴,你不仅可以学习众多AIGC类实战课程,获得与时俱进的AIGC技能和视野,还有机会获得长期商业合作和接单机会!点击进入:https://www.tahou.com/
AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。




