Uranus：机器人开发的“裁判”与“训练场”基础设施

2026-07-03 16:49:36

文章摘要

近期上线的Uranus世界模型未切入具身大脑赛道，而是转向机器人开发底层基础设施。它能解决具身智能行业两大痛点，既做评测“裁判”，又当仿真“场地”。其有帧级闭环、跨具身零样本泛化等能力，目前仅支持操作类任务，研发注重基建与数据处理。

当前具身智能领域的竞争正聚焦于世界模型研发，不少玩家都在全力打造机器人的“核心大脑”。不过近期上线的Uranus世界模型却另辟蹊径，没有直接切入具身大脑赛道，而是转向机器人开发的底层基础设施领域，这类定位的产品在行业内并不多见。

Uranus瞄准了具身智能行业的两大核心痛点：一是现有评测基准公信力不足，二是仿真到真实场景的适配鸿沟（sim-to-real gap）问题。团队希望前者能成为客观评测VLA和世界模型的公正“裁判”，后者则打造机器人训练的标准化“场地”。

开发Uranus的团队来自地平线分拆的地瓜机器人，这家公司定位为机器人软硬件通用底座提供商，主打“卖铲”的生态服务角色。尽管同行都在争相研发机器人大脑，地瓜机器人却认为：要让机器人的脑子变聪明，首先需要一个能让模型反复试错、稳定测试并复盘成绩的平台。

首先聊聊Uranus作为行业评测基准的核心价值。当前主流的机器人评测方案主要有两类：一类是真机实测，将训练好的模型部署到实体机械臂上，在固定场景中反复执行任务并统计成功率。但这种方式不仅需要专人值守、反复重置环境，效率低下且成本高昂，同时由于环境变量难以严格控制，不同实验室很难复现相同的评测结果，公信力大打折扣。另一类是虚拟环境仿真评测，优势在于速度快、成本低且结果可复现，但最大的痛点在于仿真到真实场景的适配鸿沟——仿真环境中得到的高分往往无法在真机上重现，评测分数与模型实际落地能力严重脱节。

Uranus则走出了第三条差异化路径：用户将训练完成的模型接入平台后，系统会根据模型输出的动作实时生成对应的环境反馈，进而输出成功率、轨迹偏差等量化评测指标。这种模式兼具真机评测的真实性和仿真评测的高效性，不仅迭代效率远高于实体测试，还能严格控制变量保证结果可复现，同时评测分数与模型在真实场景中的实际表现高度匹配，大幅缩小了sim-to-real gap。

据团队介绍，他们希望将Uranus打造为行业内最具公信力的评测基准之一。算法副总裁隋伟指出，当前不少评测榜单存在刷榜争议，核心原因在于部分学术指标与真实应用场景脱节，无法充分反映实际复杂环境中的模型能力。而Uranus并不刻意规避刷榜，而是确保刷出的分数真正能够匹配模型的实际落地能力，让评测结果具备参考价值。

除了作为公正的评测裁判，Uranus同时也是一款面向操作类任务的机器人仿真工具。传统物理仿真器存在诸多痛点：手工搭建仿真场景需要耗费大量时间进行3D建模、材质调整和物理参数调校，单个新环境的搭建往往需要数天甚至数周，成本高昂且效率低下；即便投入大量精力，渲染出的画面真实性依然不足，不少仿真器为了简化流程还会粗暴省略物理规则，甚至违背能量守恒，进一步放大了sim-to-real gap。

与传统手工搭建3D世界的思路不同，Uranus直接从真实数据中学习动作与环境变化的对应关系：用户仅需要提供几帧参考图像、机器人关节状态、相机参数以及文本任务描述，就能快速生成对应的仿真场景。团队表示，Uranus生成的仿真画面真实度极高，肉眼几乎无法区分实拍与生成内容，有效缩小了仿真与真实场景的鸿沟。

Uranus的核心技术突破在于帧级闭环能力。不同于普通视频生成模型一次性输出整段视频、无法根据实时动作调整后续内容的模式，Uranus仅生成下一帧画面，新生成的帧会立刻加入历史输入窗口，结合下一步动作作为模型的新输入，用户也可以随时接管并修改动作指令，让仿真场景沿着新的轨迹发展。这种模式更像是一款可实时交互的游戏，而非按剧本拍摄的电影，完美适配机器人的闭环工作逻辑。

不过帧级闭环也面临着误差累积的核心挑战：每一步的微小预测误差都会作为历史条件带入下一步，数十步后画面可能出现模糊甚至像素崩坏。但Uranus突破了长序列闭环的技术瓶颈，尽管训练时仅使用2秒的短片段数据，推理时却可以稳定运行60秒且全程保持画质稳定。

除了帧级闭环，Uranus的另一大核心能力是跨具身零样本泛化。当前不少评测平台仅支持单一硬件本体，导致开发者不得不针对不同机器人重新搭建环境、重复测试，严重限制了技术泛化性。目前Uranus已经支持G1人形机器人和Franka协作臂，后续还将扩展支持更多类型的具身硬件。

需要注意的是，Uranus目前仅支持操作类任务的训练，暂不支持运动控制类任务。团队解释称，当前Uranus仅支持动作、图像和语言三种模态，尚未加入触觉、摩擦力、电机信号等关键数据，无法支撑运动控制场景的仿真训练。而要补充这些模态，核心在于获取足够的高质量数据，目前这类数据的成熟度依然不足。

很多人会好奇，为何地瓜机器人选择将Uranus定位为基础设施而非直接开发具身大脑？团队给出了两个关键理由。首先，大模型负责人秦文康表示，当前不少世界模型将视频生成作为辅助损失函数，但学术界并未对训练过程中视频生成的质量本身进行评价，现有世界模型生成的视频质量仍有较大提升空间。Uranus团队认为，先扎实做好视频生成质量，才能对下游的动作生成训练提供更有效的支撑。其次，还有一个反直觉的结论：做机器人基础设施的难度其实高于直接做具身大脑。具身大脑的研发有相对明确的学术成果可以参考，但仿真器这类基础设施却没有成熟的论文或范式可循。

具体来说，打造这类机器人开发基础设施需要攻克三大核心技术难关：

像素级生成：评测和强化学习都需要真实的图像输入，仅在隐空间进行预测无法满足需求
跨视角一致性：机器人往往搭载多路相机，手眼相机、环境相机和第三方视角相机的画面必须保持实时对齐
帧级闭环：需要实现每一步接收动作、输出反馈，并将输出结果作为下一步的输入，形成完整的闭环流程

不少机器人公司不愿投入基础设施研发，主要是因为行业普遍面临算力不足的问题，而视频训练对算力资源消耗极大且不确定性高，很多团队不愿用有限的资源去赌一个不确定的结果。作为由地平线分拆而来的机器人公司，地瓜机器人的定位是机器人软硬件通用底座提供商，类似机器人领域的英伟达，一直致力于搭建机器人研发的“地基”，提供芯片方案、开发工具、训练与部署平台。Uranus恰好可以嵌入公司的现有生态，串联起评测和强化学习训练两大核心开发环节，完美贴合行业的实际需求。

值得一提的是，Uranus的研发过程也颠覆了不少人的认知——团队将三分之二的精力和资源都投入到了看似没有技术含量的“脏活累活”中，也就是基础设施搭建和数据处理。仅基础设施搭建就耗费了团队一半以上的精力：面对PB级别的数据量，团队设计了分层存储方案来优化存储效率；在训练阶段，还需要解决数据高速访问的问题。算力方面更是遇到了不少挑战，2024年上半年全球算力资源紧张，单一云服务商无法满足需求，团队不得不花费大量时间设计跨云算力协调方案。此外，高分辨率长视频训练需要的显存远超单卡容量，团队还研发了视频分片并行计算和结果聚合的技术方案，从存储选型、算力节点部署、网络配置到上层训练数据的热存储加速，全流程都进行了重新优化。团队在完成这些工作后感慨，语言模型领域早已达成“没有基础设施就无从谈起大模型”的共识，但具身智能行业对基础设施的重视程度还远远不够。

除了基础设施，数据处理同样耗费了团队大量精力。Uranus主要基于几百小时的开源数据进行训练，但这些数据存在不少问题：部分数据存在丢帧问题需要进行切片处理，部分数据记录的动作与实际执行情况不符需要算法识别修正，还有不少数据集未做好相机标定工作。目前几百小时的数据量还远未让Uranus达到饱和，数据量的提升依然能带来模型能力的显著增长，能力增长曲线尚未出现收敛迹象。团队计划在今年下半年将训练数据扩充到几千小时量级，明年则提升至数万到十几万小时级别。

今年不少具身智能公司都提出了“百万小时数据”的目标，但隋伟对此有不同看法。他指出，一方面现有算力资源很难支撑如此庞大的数据量；另一方面，单纯堆砌数据时长的意义不大，同质化数据对模型训练的提升有限，即便采集了百万小时的数据，真正能发挥作用的可能还不到1%。比起数据数量，数据的质量和多样性才是关键。他以自动驾驶行业为例，行业内关注的并非数据总时长，而是不同时间、空间和场景下采集到的片段数量。隋伟强调，当前具身智能行业中，模型决定了研发的下限，而数据才是决定上限的核心因素。Uranus的实践也证明了这一点：仅通过优化相机标定、对齐动作与画面的对应关系、筛选脏数据，就能带来几十个百分点的成功率提升，这一效果远超单纯调整算法参数所能达到的水平。眼下行业内的不少关键工作归根到底仍是数据工程，尚未到单纯比拼模型架构的时候。

AI生成内容提示：本文由人工智能辅助创作，内容仅供参考，不代表平台观点。请注意核实信息的准确性，并理性判断。

以上内容不代表本平台立场，仅供读者参考