大三本科生,一块老泰坦,拿下CVPR最佳学生论文提名
CVPR 2026 最佳学生论文提名:本科生用一块老显卡做出了一步式图像编辑新方法
昨晚,计算机视觉顶会 CVPR 2026 的获奖名单正式揭晓。其中有一篇由本科生主导的论文,不仅成功中稿 Oral,还一举拿下了最佳学生论文提名奖,迅速引发了大量关注。
这篇名为《ChordEdit: One-Step Low-Energy Transport for Image Editing》的获奖论文,提出了一种与模型无关、无需训练、也无需反演的方法,能够实现高保真的一步式图像编辑。奖项公布后,有网友发帖感叹“感觉蛮励志的”——论文的第一作者和通讯作者均为广东工业大学的在读本科生,实验甚至是在一块古早的 NVIDIA Titan 显卡上跑出来的。

关于算力的使用,作者在论文里写得很清楚:

这是一块基于 Turing 架构的 NVIDIA Titan 24GB GPU,英伟达迄今最后一款 Titan 显卡,发布于 2018 年。比玩家们常用的 RTX 4090 架构早了两代,性能也原始得多。还记得 CVPR 2026 颁奖活动上展示的算力消耗统计吗?

ChordEdit 不仅用的算力少,还拿了最佳学生论文提名,可以说是一股清流。
作者背景
根据论文作者列表及公开资料,这篇论文共有 6 位作者,来自广东工业大学、惠州学院、深圳大学、北京大学。
Liangsi Lu(卢梁司)

他认为视觉是一种高带宽的交互接口,通过连续的表示刻画现实世界,能够捕捉文本中未完全指明或缺失的规律,从而帮助 AI 更好地理解物理规律、构建鲁棒的世界模型。在具体研究上,他开发了 RLSTG(连续神经动力系统),并提出了 ChordEdit 视觉编辑框架。目前他共有三篇论文收录于顶级会议,正在积极申请 2027 年秋季入学的博士项目。

Xuhang Chen(陈绪行)

Minzhe Guo

Shichu Li

Jingchao Wang


Yang Shi


论文讲了什么?
ChordEdit 的核心贡献,在于解决了一步步生成模型在做“一步编辑”时容易出现的图像崩塌问题,实现了又快又稳的实时编辑。

一步式文本生成图像(T2I)模型带来了前所未有的生成速度,但用到文本引导的图像编辑上时,阻碍仍然存在:如果强行把现有的免训练编辑方法压缩到单步推理中,往往会失败。物体严重变形,非编辑区域的一致性明显丢失——根源在于,直接在模型的结构化场上做朴素的向量运算,会产生高能量、剧烈抖动的轨迹。
为解决这一问题,ChordEdit 提出了一种与模型无关、无需训练、也无需反演的方法。他们将图像编辑重新表述为一个传输问题:在由源文本提示词和目标文本提示词定义的源分布与目标分布之间进行传输。基于动态最优传输理论,研究者推导出一种有原则的低能量控制策略,能够得到更平滑、方差更低的编辑场,天然更加稳定,使得这一编辑场可以通过一次较大的积分步长完成遍历。
凭借这一有理论支撑并经过实验验证的方法,ChordEdit 能够实现快速、轻量且精确的图像编辑,最终让这类具有挑战性的一步式模型真正具备实时编辑能力。

在图像一致性保持和语义对齐之间,ChordEdit 取得了优异的平衡。推理时仅需 2 次网络调用(1 次传输 + 1 次可选的后处理),在一块 NVIDIA Titan 24GB 显卡上仅需 0.38 秒。显存占用仅 6988 M,远低于同类方法(如 SwiftEdit 的 15060 M)。

在 PIE-bench 数据集上,ChordEdit 的背景一致性(PSNR)、语义一致性(CLIP 分数)等多项核心指标均优于同类方法。作为一个与模型无关的插件,它兼容 SD-Turbo、InstaFlow 和 SwiftBrush-v2 等主流单步生成模型。


这篇论文在技术和理论上均有亮点,展示了理论工具在解决实际工程挑战中的独特价值。期待作者未来的更多研究。