传音TEX AI团队AI消除算法技术成果入选ECCV 2
计算机视觉领域有个很有意思的新动向——传音控股TEX AI团队与上海交通大学的一项合作成果,最近被计算机视觉领域的顶会ECCV 2026接收了。ECCV和CVPR、ICCV一样,都是业内公认最有分量的国际学术会议之一,两年才开一次。今年这一届,投稿量直接奔着1万篇以上去了,最终只有2,883篇论文被接收,接收率27.5%,竞争激烈程度可见一斑。

这个成果的核心,是聚焦于智能手机影像中一个至关重要的AI能力——AI目标消除。简单说,就是帮用户快速去除照片里多余的路人、杂物、文字等,然后自动把背景补得自然、看不出来。过去基于扩散模型的编辑方案,视觉效果好归好,但问题在于推理速度太慢,手机这种讲究实时交互、低功耗的场景很难吃得消。
团队这次提出的OSOR(One-Step Object Removal)单步扩散目标消除算法框架,思路很直接:把原本需要多轮迭代去噪的复杂过程,压缩成一次前向推理。结果呢?推理速度提升了4倍到30倍不等,而且生成质量一点没打折。在1024×1024分辨率的任务中,单张A100 GPU上能实现1秒以内完成处理。这算是在“高质量生成”和“高效率应用”之间找到了一个不错的平衡点。

图示里可以看到,OSOR与现有方法的推理速度和效果对比非常直观:不仅能有效消除目标物体和它带来的阴影等视觉影响,效果还优于次优方法ObjectClear,推理加速达到了10.6倍。
说到现实应用场景,手机用户不会像专业人士那样去精细标注目标,往往就是简单涂抹、圈选一下完事。这就带来了两个挑战:一是用户输入的不精准,二是复杂拍摄环境下物体与背景之间常存在阴影、反射、倒影等视觉关联。光把目标“删掉”,背景很容易就显得突兀不自然。
针对这些痛点,团队设计了一套面向真实交互场景优化的鲁棒性AI消除方案。引入了轻量化的Alpha区域感知机制,模型能智能理解用户选中的区域和目标物体的关系,自动推断出主体以及它给周围带来的影响范围。即使你圈选区域有点偏差,模型也挺靠谱,能完成更完整、更精准的目标移除,然后把背景恢复得自然一致。为了支撑这个能力,团队还构建了一个包含28万组高质量目标消除样本的数据集,从数据源头保证了模型的学习效果。

通过这些技术,AI消除已经从单纯的“删除目标”升级成了基于场景理解的“智能重建”。用户操作门槛降低不少,照片编辑出来的效果也更自然真实。
这次入选ECCV 2026,算是传音在计算机视觉领域的又一个标志性成果。他们长期在视觉智能、生成式AI、多模态交互这些前沿方向上持续投入,同时也比较注重把这些技术转化成真实可用的终端产品体验,形成从研究、研发到产品的完整链条。未来,图库AI消除和智能助手AI修图功能会在传音手机上率先落地,结合多模态理解能力,让照片编辑更智能化、更自动化。