破解在线长时序重建难题!纯视觉、单卡实时的公里级流式3D重建|CVPR'26
在自动驾驶、具身智能、AR/VR应用中做3D重建,大家都想解决一个终极问题:
模型能不能像人一样,一边往前看,一边持续构建三维世界?
但真做起来,这件事远比想象中难。

短序列或离线场景下,很多方法已经能取得不错效果;但一旦进入真实长视频、严格在线、未来帧不可见的设定,问题就会迅速暴露出来:
- 序列越长,精度越容易退化
- 长时推理下,尺度不断漂移
- 缓存持续累积,推理稳定性迅速下降
- 内存与延迟随序列增长恶化,甚至直接OOM
这正是长序列3D重建长期难以真正落地部署的核心原因。
在即将到来的CVPR 2026中,由香港科技大学(广州)与地平线等机构联合提出的LongStream,正是为了解决这一问题而来。它不是一个只在短序列上“看起来不错”的方法,而是一个围绕长序列、严格在线、实时流式推理重新设计的3D视觉模型。目前,论文、代码和交互式Demo已全部开源。

这项工作的几个核心亮点非常直接:
18 FPS流式自回归推理
支持公里级超长序列
实现稳定的米制尺度重建
支持上千帧序列的稳定重建
换句话说,这项工作的重点不是“离线把结果磨漂亮”,而是:
让3D重建真正具备了长时间在线运行的系统形态。
它到底解决了什么问题?
在3D视觉领域,超长序列的流式重建一直是一个公认的难题。现有的自回归(Autoregressive)模型在处理长序列时往往会遭遇“滑铁卢”,主要原因在于:
1. 第一帧锚定依赖:主流方法通常将相机位姿绑定到第一帧。训练时只见短序列,推理时却要滚动处理长序列,这种训练—推理错位会不断放大外推误差,最终导致退化甚至崩溃。
2. 注意力陷阱(Attention Sink):模型会像大语言模型一样出现attention sink,注意力异常沉积在首帧token,而不是对重建更关键的时空邻近帧,从而违背局部几何约束。
3. KV cache缓存污染:长期累积的KV cache会带来表征污染、记忆饱和和几何漂移,进一步拉低长序列重建精度。
在严格在线设定下,模型不能偷看未来,也不能随时回头做全局优化,它必须在历史受限、误差不可撤销的条件下持续前滚。只要位姿锚定方式、尺度建模方式、缓存训练方式有一个地方设计不对,长序列就会很快崩掉。

(图1:基线方法存在明显的attention sink现象,模型过度关注第一帧,而忽视了与局部几何一致性更相关的近期帧。这种不平衡会导致RPE快速增长,并削弱长程预测稳定性。)
核心创新

(图2:LongStream整体框架。模型在严格在线设定下持续预测位姿、深度、pointmap与全局尺度。)
为了解决上述问题,LongStream提出了一种全新的Gauge-decoupled流式视觉几何架构,核心包括三点:
- 摆脱“第一帧锚定”:LongStream不再将所有位姿都绑定到初始帧,而是预测相对关键帧的位姿。这样一来,原本难度随时间递增的长程外推问题,被改写成了难度更稳定的局部任务,从而显著提升了超长序列下的鲁棒性。
- 缩小训练与推理鸿沟:LongStream进一步识别出,attention sink和长期KV cache污染是长时退化的关键来源。为此,作者提出缓存一致训练,在训练阶段显式传递并裁剪缓存,使训练时的可见上下文尽可能贴近真实流式推理,从而引导模型学习稳定的局部时序依赖,而不是继续过度依赖首帧。
- 解决缓存顽疾:在此基础上,LongStream结合周期性缓存刷新,定期边缘化陈旧上下文,清理退化记忆,抑制长期饱和与几何漂移。由于整个系统建立在关键帧相对坐标系上,缓存可以在关键帧处刷新而不破坏重建一致性,从而更接近“无限流”处理能力。
实验结果
在KITTI、Waymo、TUM-RGBD等多个室内外基准测试中,LongStream都表现出了非常强的竞争力:
- 在保持较低显存占用的同时,实现了18 FPS的流式推理;
- 相比显存随序列长度快速增长的baseline,LongStream在千帧级streaming测试中资源占用更加稳定;
- 在数公里长的KITTI序列中,LongStream不仅没有丢失跟踪,其ATE也显著优于现有在线方法。下面几组结果分别展示了LongStream在轨迹误差、长序列稳定性、资源占用和可视化重建效果上的表现。

(图3:KITTI场景下的可视化对比结果。其他方法随着序列变成出现了跟丢或者崩溃的现象,而LongStream保持稳定。)

(图4:室内场景下的可视化对比结果。即使在更复杂的室内环境中,LongStream依旧保持稳定。)

(图5:KITTI场景下的ATE对比结果。随着行驶距离增加,传统方法的误差迅速放大,甚至出现跟丢,而LongStream始终保持较低的轨迹误差和稳定的米制尺度。)

(图6:其他数据集上的ATE对比结果。LongStream在多个基准测试中都保持了很强的竞争力。)
从系统角度看,LongStream其实更像“在线世界建模引擎”,不再把3D reconstruction当作一个静态任务,而是
持续更新的在线三维世界建模。
它不是只输出某一时刻的单帧深度,也不是离线做完再统一拼接,而是在不断接收新观测的同时,维护全局三维状态。
为什么这件事重要?
因为未来很多视觉系统都不需要“看完再算”,而需要“边看边建”。比如:
- 机器人需要边走边维护空间地图
- 自动驾驶需要边行驶边估计可用几何
- AR眼镜需要边佩戴边更新环境理解
- Embodied AI需要在长期交互中持续累积3D memory
这些场景的共同要求不是某一帧精度极高,而是:
系统要能长期稳定、实时更新、资源可控。
LongStream的意义就在这里:它展示了一条更接近真实部署约束的3D视觉范式,不是一次性重建一个场景,而是持续维护一个世界。
结语
LongStream的价值,不只是把分数再往前推了一点,而是把流式3D重建真正推进到了严格在线、单卡友好、上千帧稳定、公里级可扩展的新阶段。
当3D视觉开始从“离线重建”走向“在线世界建模”,这类工作会变得越来越重要。对于机器人、自动驾驶和embodied AI而言,LongStream提供了一条值得持续关注的技术路径。
论文题目:LongStream: Long-Sequence Streaming Autoregressive Visual Geometry论文链接:https://arxiv.org/abs/2602.13172项目主页:https://3dagentworld.github.io/longstream/
文章来自于“量子位”,作者 “LongStream团队”。

