首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >单卡10秒级！计算所联合ETH单图3D化新研究：同质量生成提速2.67倍

单卡10秒级！计算所联合ETH单图3D化新研究：同质量生成提速2.67倍

来源：互联网时间：2026-06-06 12:49:02

仅凭一张照片，到底能不能又快又好地生成一个可用的3D资产？这个问题正在成为3D生成、机器人感知，乃至空间计算领域的一项基础能力。

过去，单图3D重建更多是停留在“能生成一个物体”的阶段。而SAM3D的出现，则把这个问题推进到了更复杂、也更贴近真实的开放场景：给定一张图像和对应的目标mask，它不仅能重建出任意一个物体，还能恢复出物体的纹理和它在空间中的布局。

不过，当技术真正走向应用时，推理效率很快就成了新的瓶颈。高质量的3D重建过程如果耗时过长，就很难支撑起复杂的现实场景。所以，一个很实际的问题就摆在了面前：能不能更快、更稳定、也更便宜地完成重建？

针对这一挑战，来自中国科学院计算技术研究所和ETH Zurich等机构的研究者，提出了

Fast-SAM3D

。这种方法直接瞄准了SAM3D的推理链路，做了一种“训练无关”的加速，在最大程度上保持重建质量的同时，将单个对象的生成速度提升了最高

2.67倍

，场景级别的生成速度也提升了最高

2.01倍

。

一起来看看它是怎么实现的。

SAM3D为何被“卡脖子”

SAM3D采用了一种“粗到精”的两阶段流程：先预测物体的粗结构和空间布局，再进一步细化几何和纹理，最后通过解码器输出一个显式的3D结果。

研究团队对它的推理过程做了系统性的分析，发现耗时主要集中在三个环节：

Sparse Structure生成器

、

Sparse Latent生成器

，以及

Mesh解码器

。换句话说，问题的瓶颈很清晰。

单卡10秒级！计算所联合ETH单图3D化新研究：同质量生成提速2.67倍

△
迭代式生成器和Mesh解码器是主要计算瓶颈

单卡10秒级！计算所联合ETH单图3D化新研究：同质量生成提速2.67倍

△
各模块上均实现大幅度推理加速

但有意思的是，

SAM3D的“慢”并非均匀发生

。有些模块的计算负担其实是可以被更聪明的策略所分担的。比如，形状token的变化往往比较平滑，可以被更简单地预测；而布局token控制着姿态、旋转和尺度，一个小误差就可能造成整体漂移。纹理和细节的更新也不是处处都需要，真正需要反复计算的，通常是边缘、接缝、薄结构这些高信息熵的区域。更不用说，杯子和龙雕这类物体在几何复杂度上差异巨大，显然不应该使用同样密度的解码预算。

这就解释了为什么简单的通用加速策略在SAM3D上容易失效。统一跳步可能带来位姿漂移，随机token剪枝可能导致结构坍塌，统一下采样又会抹掉复杂物体的细节。

所以，Fast-SAM3D的核心思路很明确：不是粗暴地少算，而是

把计算花在真正需要的地方

。

单卡10秒级！计算所联合ETH单图3D化新研究：同质量生成提速2.67倍

让计算资源与模块复杂度精准匹配

Fast-SAM3D的框架由三个模块组成，分别对应结构生成、细节生成和网格解码这三个关键阶段。

单卡10秒级！计算所联合ETH单图3D化新研究：同质量生成提速2.67倍

△
Fast-SAM3D三部分组成

首先是

Modality-Aware Step Caching（模态感知步骤缓存）

。

在结构生成阶段，Fast-SAM3D将形状token和布局token区分处理：对于演化平滑的形状token，进行预测和复用；而对于更敏感的布局token，则用锚点约束来抑制抖动。这样做的好处是，既减少了主干网络的调用次数，又有效避免了物体姿态在加速过程中“跑偏”。

单卡10秒级！计算所联合ETH单图3D化新研究：同质量生成提速2.67倍

其次是

Joint Spatiotemporal Token Carving（联合时空Token雕刻）

。

在细节生成阶段，Fast-SAM3D不再让所有token平均参与计算，而是根据时间变化、突变程度和空间频率，找出最值得更新的区域。平滑的表面可以少算，而边缘、尖角、纹理突变等区域，则获得更多的计算资源。

单卡10秒级！计算所联合ETH单图3D化新研究：同质量生成提速2.67倍

第三是

Spectral-Aware Token Aggregation（频谱感知Token聚合）

。

在Mesh解码阶段，方法通过2D mask和3D粗结构的频谱信息来评估物体的复杂度：简单物体更激进地聚合token，而复杂物体则保留更多高频细节。这样一来，系统就能针对不同物体自适应地分配解码预算。

单卡10秒级！计算所联合ETH单图3D化新研究：同质量生成提速2.67倍

速度提升明显，质量基本不掉队

在SAM3D的基准测试上，Fast-SAM3D将场景级生成时间从462.3秒大幅降至229.7秒，实现了

2.01倍

的加速；单对象生成则达到了

2.67倍

的加速。

更重要的是，几何质量并没有因此而明显下降。F1@0.05这个关键指标从92.34提升到了92.59，vIoU也从0.543提升到了0.552，这说明加速并未以牺牲质量作为代价。

单卡10秒级！计算所联合ETH单图3D化新研究：同质量生成提速2.67倍

定性结果也印证了这一点。随机剪枝容易导致结构坍塌，通用缓存方法可能出现语义或布局漂移，而

Fast-SAM3D的结果与原始SAM3D的结果最为接近

。这充分说明，3D重建中的加速不能照搬2D扩散模型的经验，而必须深刻理解3D数据自身的结构、位姿和频谱差异。

单卡10秒级！计算所联合ETH单图3D化新研究：同质量生成提速2.67倍

总结来看，Fast-SAM3D的价值不仅仅在于刷新了几个速度指标：

内容生产
：更快的单图3D重建意味着设计师可以更频繁地试错，快速将图片素材变成可编辑的资产；
电商和展示业务
：商品图转3D的成本下降后，批量3D化才有可能成为常规流程；
机器人和具身智能
：系统若能更快地从现场图像中恢复可操作物体，将直接影响在线感知与规划效率；
AR/VR应用
：低延迟的重建，则决定了交互体验是否足够自然。

更实际的一点是，Fast-SAM3D是一个训练无关的框架，不需要重新收集数据或重训基础模型，因此更容易接入已有的SAM3D流程。

它给出的启发也很清晰：

当3D生成能力逐渐从“能做”走向“可用”，系统级的效率优化会变得和模型能力本身一样重要。

下一阶段，单图3D重建的竞争点将不再仅仅是“生成效果”，而是能否在真实的业务场景中稳定、快速、低成本地运行。Fast-SAM3D正是在这个方向上迈出的坚实一步。

本文共同第一作者为中国科学院计算所博士生冯伟伦、硕士生伍明强。通讯作者为中国科学院计算所杨传广和安竹林副研究员。核心成员来自计算所智能算法安全全国重点实验室智能优化课题组，隶属于徐勇军研究员团队，课题组长期从事高效人工智能的研究，重点关注视觉、多模态等领域的理解与生成高效性。

论文链接：https://arxiv.org/abs/2602.05293

代码链接：https://github.com/wlfeng0509/Fast-SAM3D

单卡10秒级！计算所联合ETH单图3D化新研究：同质量生成提速2.67倍

Fast-SAM3D

2.67倍