单卡10秒级!计算所联合ETH单图3D化新研究:同质量生成提速2.67倍
仅凭一张照片,到底能不能又快又好地生成一个可用的3D资产?这个问题正在成为3D生成、机器人感知,乃至空间计算领域的一项基础能力。
过去,单图3D重建更多是停留在“能生成一个物体”的阶段。而SAM3D的出现,则把这个问题推进到了更复杂、也更贴近真实的开放场景:给定一张图像和对应的目标mask,它不仅能重建出任意一个物体,还能恢复出物体的纹理和它在空间中的布局。
不过,当技术真正走向应用时,推理效率很快就成了新的瓶颈。高质量的3D重建过程如果耗时过长,就很难支撑起复杂的现实场景。所以,一个很实际的问题就摆在了面前:能不能更快、更稳定、也更便宜地完成重建?

针对这一挑战,来自中国科学院计算技术研究所和ETH Zurich等机构的研究者,提出了
Fast-SAM3D
2.67倍
2.01倍
一起来看看它是怎么实现的。
SAM3D为何被“卡脖子”
SAM3D采用了一种“粗到精”的两阶段流程:先预测物体的粗结构和空间布局,再进一步细化几何和纹理,最后通过解码器输出一个显式的3D结果。
研究团队对它的推理过程做了系统性的分析,发现耗时主要集中在三个环节:
Sparse Structure生成器
Sparse Latent生成器
Mesh解码器

△
迭代式生成器和Mesh解码器是主要计算瓶颈
△

△
各模块上均实现大幅度推理加速
△
但有意思的是,
SAM3D的“慢”并非均匀发生
这就解释了为什么简单的通用加速策略在SAM3D上容易失效。统一跳步可能带来位姿漂移,随机token剪枝可能导致结构坍塌,统一下采样又会抹掉复杂物体的细节。
所以,Fast-SAM3D的核心思路很明确:不是粗暴地少算,而是
把计算花在真正需要的地方

让计算资源与模块复杂度精准匹配
Fast-SAM3D的框架由三个模块组成,分别对应结构生成、细节生成和网格解码这三个关键阶段。

△
Fast-SAM3D三部分组成
△
首先是
Modality-Aware Step Caching(模态感知步骤缓存)
在结构生成阶段,Fast-SAM3D将形状token和布局token区分处理:对于演化平滑的形状token,进行预测和复用;而对于更敏感的布局token,则用锚点约束来抑制抖动。这样做的好处是,既减少了主干网络的调用次数,又有效避免了物体姿态在加速过程中“跑偏”。

其次是
Joint Spatiotemporal Token Carving(联合时空Token雕刻)
在细节生成阶段,Fast-SAM3D不再让所有token平均参与计算,而是根据时间变化、突变程度和空间频率,找出最值得更新的区域。平滑的表面可以少算,而边缘、尖角、纹理突变等区域,则获得更多的计算资源。

第三是
Spectral-Aware Token Aggregation(频谱感知Token聚合)
在Mesh解码阶段,方法通过2D mask和3D粗结构的频谱信息来评估物体的复杂度:简单物体更激进地聚合token,而复杂物体则保留更多高频细节。这样一来,系统就能针对不同物体自适应地分配解码预算。

速度提升明显,质量基本不掉队
在SAM3D的基准测试上,Fast-SAM3D将场景级生成时间从462.3秒大幅降至229.7秒,实现了
2.01倍
2.67倍
更重要的是,几何质量并没有因此而明显下降。F1@0.05这个关键指标从92.34提升到了92.59,vIoU也从0.543提升到了0.552,这说明加速并未以牺牲质量作为代价。

定性结果也印证了这一点。随机剪枝容易导致结构坍塌,通用缓存方法可能出现语义或布局漂移,而
Fast-SAM3D的结果与原始SAM3D的结果最为接近

总结来看,Fast-SAM3D的价值不仅仅在于刷新了几个速度指标:
- :更快的单图3D重建意味着设计师可以更频繁地试错,快速将图片素材变成可编辑的资产;
内容生产
- :商品图转3D的成本下降后,批量3D化才有可能成为常规流程;
电商和展示业务
- :系统若能更快地从现场图像中恢复可操作物体,将直接影响在线感知与规划效率;
机器人和具身智能
- :低延迟的重建,则决定了交互体验是否足够自然。
AR/VR应用
更实际的一点是,Fast-SAM3D是一个训练无关的框架,不需要重新收集数据或重训基础模型,因此更容易接入已有的SAM3D流程。
它给出的启发也很清晰:
当3D生成能力逐渐从“能做”走向“可用”,系统级的效率优化会变得和模型能力本身一样重要。
下一阶段,单图3D重建的竞争点将不再仅仅是“生成效果”,而是能否在真实的业务场景中稳定、快速、低成本地运行。Fast-SAM3D正是在这个方向上迈出的坚实一步。
本文共同第一作者为中国科学院计算所博士生冯伟伦、硕士生伍明强。通讯作者为中国科学院计算所杨传广和安竹林副研究员。核心成员来自计算所智能算法安全全国重点实验室智能优化课题组,隶属于徐勇军研究员团队,课题组长期从事高效人工智能的研究,重点关注视觉、多模态等领域的理解与生成高效性。
论文链接:https://arxiv.org/abs/2602.05293
代码链接:https://github.com/wlfeng0509/Fast-SAM3D