破解在线长时序重建难题！纯视觉、单卡实时的公里级流式3D重建｜CVPR'26

塔猴速递

2026-03-24 17:57:21

3D 视觉 / 虚拟数字人

视频处理

具身智能

模型部署

文章摘要

自动驾驶等领域的3D重建面临长序列难题，如精度退化、尺度漂移等。即将在CVPR 2026亮相的LongStream模型为此而来，提出Gauge - decoupled架构，解决了第一帧锚定依赖等问题。实验显示其性能优越，推进流式3D重建到新阶段，为相关领域提供技术路径。

在自动驾驶、具身智能、AR/VR应用中做3D重建，大家都想解决一个终极问题：

模型能不能像人一样，一边往前看，一边持续构建三维世界？

但真做起来，这件事远比想象中难。

破解在线长时序重建难题！纯视觉、单卡实时的公里级流式3D重建｜CVPR'26

短序列或离线场景下，很多方法已经能取得不错效果；但一旦进入真实长视频、严格在线、未来帧不可见的设定，问题就会迅速暴露出来：

序列越长，精度越容易退化

长时推理下，尺度不断漂移

缓存持续累积，推理稳定性迅速下降

内存与延迟随序列增长恶化，甚至直接OOM

这正是长序列3D重建长期难以真正落地部署的核心原因。

在即将到来的CVPR 2026中，由香港科技大学（广州）与地平线等机构联合提出的LongStream，正是为了解决这一问题而来。它不是一个只在短序列上“看起来不错”的方法，而是一个围绕长序列、严格在线、实时流式推理重新设计的3D视觉模型。目前，论文、代码和交互式Demo已全部开源。

破解在线长时序重建难题！纯视觉、单卡实时的公里级流式3D重建｜CVPR'26

这项工作的几个核心亮点非常直接：

18 FPS流式自回归推理

支持公里级超长序列

实现稳定的米制尺度重建

支持上千帧序列的稳定重建

换句话说，这项工作的重点不是“离线把结果磨漂亮”，而是：

让3D重建真正具备了长时间在线运行的系统形态。

它到底解决了什么问题？

在3D视觉领域，超长序列的流式重建一直是一个公认的难题。现有的自回归（Autoregressive）模型在处理长序列时往往会遭遇“滑铁卢”，主要原因在于：

1. 第一帧锚定依赖：主流方法通常将相机位姿绑定到第一帧。训练时只见短序列，推理时却要滚动处理长序列，这种训练—推理错位会不断放大外推误差，最终导致退化甚至崩溃。

2. 注意力陷阱（Attention Sink）：模型会像大语言模型一样出现attention sink，注意力异常沉积在首帧token，而不是对重建更关键的时空邻近帧，从而违背局部几何约束。

3. KV cache缓存污染：长期累积的KV cache会带来表征污染、记忆饱和和几何漂移，进一步拉低长序列重建精度。

在严格在线设定下，模型不能偷看未来，也不能随时回头做全局优化，它必须在历史受限、误差不可撤销的条件下持续前滚。只要位姿锚定方式、尺度建模方式、缓存训练方式有一个地方设计不对，长序列就会很快崩掉。

破解在线长时序重建难题！纯视觉、单卡实时的公里级流式3D重建｜CVPR'26

（图1：基线方法存在明显的attention sink现象，模型过度关注第一帧，而忽视了与局部几何一致性更相关的近期帧。这种不平衡会导致RPE快速增长，并削弱长程预测稳定性。）

核心创新

破解在线长时序重建难题！纯视觉、单卡实时的公里级流式3D重建｜CVPR'26

（图2：LongStream整体框架。模型在严格在线设定下持续预测位姿、深度、pointmap与全局尺度。）

为了解决上述问题，LongStream提出了一种全新的Gauge-decoupled流式视觉几何架构，核心包括三点：

摆脱“第一帧锚定”：LongStream不再将所有位姿都绑定到初始帧，而是预测相对关键帧的位姿。这样一来，原本难度随时间递增的长程外推问题，被改写成了难度更稳定的局部任务，从而显著提升了超长序列下的鲁棒性。
缩小训练与推理鸿沟：LongStream进一步识别出，attention sink和长期KV cache污染是长时退化的关键来源。为此，作者提出缓存一致训练，在训练阶段显式传递并裁剪缓存，使训练时的可见上下文尽可能贴近真实流式推理，从而引导模型学习稳定的局部时序依赖，而不是继续过度依赖首帧。
解决缓存顽疾：在此基础上，LongStream结合周期性缓存刷新，定期边缘化陈旧上下文，清理退化记忆，抑制长期饱和与几何漂移。由于整个系统建立在关键帧相对坐标系上，缓存可以在关键帧处刷新而不破坏重建一致性，从而更接近“无限流”处理能力。

实验结果

在KITTI、Waymo、TUM-RGBD等多个室内外基准测试中，LongStream都表现出了非常强的竞争力：

在保持较低显存占用的同时，实现了18 FPS的流式推理；

相比显存随序列长度快速增长的baseline，LongStream在千帧级streaming测试中资源占用更加稳定；

在数公里长的KITTI序列中，LongStream不仅没有丢失跟踪，其ATE也显著优于现有在线方法。下面几组结果分别展示了LongStream在轨迹误差、长序列稳定性、资源占用和可视化重建效果上的表现。

破解在线长时序重建难题！纯视觉、单卡实时的公里级流式3D重建｜CVPR'26

（图3：KITTI场景下的可视化对比结果。其他方法随着序列变成出现了跟丢或者崩溃的现象，而LongStream保持稳定。）

破解在线长时序重建难题！纯视觉、单卡实时的公里级流式3D重建｜CVPR'26

（图4：室内场景下的可视化对比结果。即使在更复杂的室内环境中，LongStream依旧保持稳定。）

破解在线长时序重建难题！纯视觉、单卡实时的公里级流式3D重建｜CVPR'26

（图5：KITTI场景下的ATE对比结果。随着行驶距离增加，传统方法的误差迅速放大，甚至出现跟丢，而LongStream始终保持较低的轨迹误差和稳定的米制尺度。）

破解在线长时序重建难题！纯视觉、单卡实时的公里级流式3D重建｜CVPR'26

（图6：其他数据集上的ATE对比结果。LongStream在多个基准测试中都保持了很强的竞争力。）

从系统角度看，LongStream其实更像“在线世界建模引擎”，不再把3D reconstruction当作一个静态任务，而是

持续更新的在线三维世界建模。

它不是只输出某一时刻的单帧深度，也不是离线做完再统一拼接，而是在不断接收新观测的同时，维护全局三维状态。

为什么这件事重要？

因为未来很多视觉系统都不需要“看完再算”，而需要“边看边建”。比如：

机器人需要边走边维护空间地图
自动驾驶需要边行驶边估计可用几何
AR眼镜需要边佩戴边更新环境理解
Embodied AI需要在长期交互中持续累积3D memory

这些场景的共同要求不是某一帧精度极高，而是：

系统要能长期稳定、实时更新、资源可控。

LongStream的意义就在这里：它展示了一条更接近真实部署约束的3D视觉范式，不是一次性重建一个场景，而是持续维护一个世界。

结语

LongStream的价值，不只是把分数再往前推了一点，而是把流式3D重建真正推进到了严格在线、单卡友好、上千帧稳定、公里级可扩展的新阶段。

当3D视觉开始从“离线重建”走向“在线世界建模”，这类工作会变得越来越重要。对于机器人、自动驾驶和embodied AI而言，LongStream提供了一条值得持续关注的技术路径。

论文题目：LongStream: Long-Sequence Streaming Autoregressive Visual Geometry论文链接：https://arxiv.org/abs/2602.13172项目主页：https://3dagentworld.github.io/longstream/

文章来自于“量子位”，作者 “LongStream团队”。

以上内容不代表本平台立场，仅供读者参考