Model 3D圈变天了！谷歌刚买下独角兽，就被国内团队的“黑科技”截胡了？

2026-01-28 10:52:22

文章摘要

3D生成有“2D升维”和“原生3D”两条技术路线，Hyper3D属后者，优势明显。

导语： 1 月 23 日，Google DeepMind 宣布全资收购 3D 独角兽 CSM，意图补齐多模态拼图。然而仅过 3 天，中国团队 Hyper3D 便发布了 Rodin Gen-2 Edit，在全球率先实现了基于自然语言的 3D 局部编辑。

图片描述

图源：量子位

在 Hyper3D 发布之前，3D 生成领域长期受困于一个“不可能三角”：

Google 收购 CSM，正是为了解决“可编辑性”难题。CSM 曾尝试通过“3D 到 2D 再到 3D”的循环一致性来实现编辑，但算力成本极高且效果不稳定。Hyper3D 的截胡，证明了“原生 3D 大模型”才是破局的关键。
图片描述

图源：量子位

3D 生成领域存在两条截然不同的技术路线：

路线 A：2D 升维（Luma/CSM）
- 原理： 利用强大的 2D 生图模型（如 SD），生成多角度视图，再通过 NeRF/Gaussian Splatting 重建 3D。
- 硬伤： “懂画不懂骨”。生成的模型表面光鲜，但内部几何结构（Mesh）是一团乱麻，无法绑骨、无法做动画。
路线 B：原生 3D（Hyper3D CLAY）
- 原理： 直接在 3D 数据集（点云/体素）上训练 Transformer。让 AI 理解“什么是圆柱体”、“什么是关节”。
- 优势： “懂骨也懂画”。生成的模型自带合理的拓扑结构，天然支持物理模拟和局部编辑。

Hyper3D 的 CLAY 框架在 Geometry Quality（几何质量）指标上，比 OpenAI 的 Shap-E 高出 40%，且推理速度快 5 倍。
(数据来源：SIGGRAPH 2024 Hyper3D 论文)

Rodin Gen-2 Edit 的核心突破在于语义理解。

它之所以能听懂“把手臂改成大炮”，是因为它使用了递归分件技术。

这种“结构化生成”能力，是 2D 升维路线永远无法做到的。

对于游戏和影视行业，这意味着资产生产管线的彻底重构。

3D 资产生产成本对比模型

生产方式	平均耗时	平均成本 (美元)	修改难度	适用场景
人工建模 (PBR)	3 - 5 天	$500 - $1500	高 (需返工)	主角/核心资产
传统 AI 生成	10 分钟	$1	极高 (不可改)	远景/装饰物
Hyper3D Edit	< 1 分钟	$5	低 (实时改)	NPC/道具/场景

Hyper3D 将 3D 资产的生产成本降低了 99%。这不仅让游戏开发变便宜了，更让UGC（用户生成内容）成为了可能。未来的 Roblox 或 Minecraft 玩家，可以用嘴造出一个世界。
图片描述

图源：量子位

Hyper3D 的野心远不止于“造模型”，它的 CAST 技术已经指向了更宏大的未来。

具身智能：
机器人要理解世界，需要大量的 3D 训练数据。Hyper3D 能生成带有物理属性（质量、摩擦力）的 3D 场景，成为机器人训练的**“虚拟靶场”**。
空间计算：
Apple Vision Pro 需要海量的 3D 内容。Hyper3D 是目前唯一能快速填充这个“内容真空”的基础设施。

图源：量子位

它证明了：3D 不再是少数建模师的特权，而是普惠的表达方式。在这个维度升维的战争中，中国团队凭借“原生 3D”的底层创新，已经拿到了通往下一个数字时代的入场券。

声明：该内容由作者自行发布，观点内容仅供参考，不代表平台立场；如有侵权，请联系平台删除。

标签：

3D 视觉 / 虚拟数字人

多模态大模型