Model 3D圈变天了!谷歌刚买下独角兽,就被国内团队的“黑科技”截胡了?

2026-01-28 10:52:22
文章摘要
3D生成有“2D升维”和“原生3D”两条技术路线,Hyper3D属后者,优势明显。

导语: 1 月 23 日,Google DeepMind 宣布全资收购 3D 独角兽 CSM,意图补齐多模态拼图。然而仅过 3 天,中国团队 Hyper3D 便发布了 Rodin Gen-2 Edit,在全球率先实现了基于自然语言的 3D 局部编辑。

图片描述

图源:量子位

一、 行业痛点:3D 生成的“不可能三角”与谷歌的焦虑

在 Hyper3D 发布之前,3D 生成领域长期受困于一个“不可能三角”:

  1. 生成速度: 快则质量差(几秒出粗模)。
  2. 几何质量: 质量好则不可控(NeRF 路线生成的模型拓扑混乱,无法进引擎)。
  3. 编辑能力: 几乎为零。一旦生成结果有瑕疵(如多了一只手),除了重画别无他法。

Google 收购 CSM,正是为了解决“可编辑性”难题。CSM 曾尝试通过“3D 到 2D 再到 3D”的循环一致性来实现编辑,但算力成本极高且效果不稳定。Hyper3D 的截胡,证明了“原生 3D 大模型”才是破局的关键。
图片描述
图片描述
图片描述
图源:量子位

二、 技术路线之争:为什么说“2D 升维”是死路一条?

3D 生成领域存在两条截然不同的技术路线:

  • 路线 A:2D 升维(Luma/CSM)
    • 原理: 利用强大的 2D 生图模型(如 SD),生成多角度视图,再通过 NeRF/Gaussian Splatting 重建 3D。
    • 硬伤: “懂画不懂骨”。生成的模型表面光鲜,但内部几何结构(Mesh)是一团乱麻,无法绑骨、无法做动画。
  • 路线 B:原生 3D(Hyper3D CLAY)
    • 原理: 直接在 3D 数据集(点云/体素)上训练 Transformer。让 AI 理解“什么是圆柱体”、“什么是关节”。
    • 优势: “懂骨也懂画”。生成的模型自带合理的拓扑结构,天然支持物理模拟和局部编辑。

Hyper3D 的 CLAY 框架在 Geometry Quality(几何质量)指标上,比 OpenAI 的 Shap-E 高出 40%,且推理速度快 5 倍。
(数据来源:SIGGRAPH 2024 Hyper3D 论文)

三、 Hyper3D 的黑科技:从“生成像素”到“理解结构”

Rodin Gen-2 Edit 的核心突破在于 语义理解。

它之所以能听懂“把手臂改成大炮”,是因为它使用了 递归分件技术。

  • 分件逻辑: AI 自动把一个机甲拆解为“头、胸、左臂、右臂、腿”。
  • 局部重绘: 当用户框选“左臂”时,AI 知道它在修改一个独立的组件,而不是在修改整张图的像素。

这种“结构化生成”能力,是 2D 升维路线永远无法做到的。

四、 把 3D 资产成本从 $500 打到 $5

对于游戏和影视行业,这意味着资产生产管线的彻底重构。

3D 资产生产成本对比模型

生产方式 平均耗时 平均成本 (美元) 修改难度 适用场景
人工建模 (PBR) 3 - 5 天 $500 - $1500 高 (需返工) 主角/核心资产
传统 AI 生成 10 分钟 $1 极高 (不可改) 远景/装饰物
Hyper3D Edit < 1 分钟 $5 低 (实时改) NPC/道具/场景

Hyper3D 将 3D 资产的生产成本降低了 99%。这不仅让游戏开发变便宜了,更让UGC(用户生成内容)成为了可能。未来的 Roblox 或 Minecraft 玩家,可以用嘴造出一个世界。
图片描述
图片描述
图片描述
图片描述
图源:量子位

五、 具身智能的“眼”与元宇宙的“砖”

Hyper3D 的野心远不止于“造模型”,它的 CAST 技术 已经指向了更宏大的未来。

  1. 具身智能:
    机器人要理解世界,需要大量的 3D 训练数据。Hyper3D 能生成带有物理属性(质量、摩擦力)的 3D 场景,成为机器人训练的**“虚拟靶场”**。
  2. 空间计算:
    Apple Vision Pro 需要海量的 3D 内容。Hyper3D 是目前唯一能快速填充这个“内容真空”的基础设施。
    图片描述
    图源:量子位

六、 总结

它证明了:3D 不再是少数建模师的特权,而是普惠的表达方式。 在这个维度升维的战争中,中国团队凭借“原生 3D”的底层创新,已经拿到了通往下一个数字时代的入场券。

声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
3D 视觉 / 虚拟数字人
多模态大模型