首页 > 教程攻略 > ai资讯 >大三本科生,一块老泰坦,拿下CVPR最佳学生论文提名

大三本科生,一块老泰坦,拿下CVPR最佳学生论文提名

来源:互联网 时间:2026-06-07 12:47:00

CVPR 2026 最佳学生论文提名:本科生用一块老显卡做出了一步式图像编辑新方法

昨晚,计算机视觉顶会 CVPR 2026 的获奖名单正式揭晓。其中有一篇由本科生主导的论文,不仅成功中稿 Oral,还一举拿下了最佳学生论文提名奖,迅速引发了大量关注。

这篇名为《ChordEdit: One-Step Low-Energy Transport for Image Editing》的获奖论文,提出了一种与模型无关、无需训练、也无需反演的方法,能够实现高保真的一步式图像编辑。奖项公布后,有网友发帖感叹“感觉蛮励志的”——论文的第一作者和通讯作者均为广东工业大学的在读本科生,实验甚至是在一块古早的 NVIDIA Titan 显卡上跑出来的。



关于算力的使用,作者在论文里写得很清楚:



这是一块基于 Turing 架构的 NVIDIA Titan 24GB GPU,英伟达迄今最后一款 Titan 显卡,发布于 2018 年。比玩家们常用的 RTX 4090 架构早了两代,性能也原始得多。还记得 CVPR 2026 颁奖活动上展示的算力消耗统计吗?



ChordEdit 不仅用的算力少,还拿了最佳学生论文提名,可以说是一股清流。

作者背景

根据论文作者列表及公开资料,这篇论文共有 6 位作者,来自广东工业大学、惠州学院、深圳大学、北京大学。

Liangsi Lu(卢梁司)

,第一作者,目前是广东工业大学信息与计算科学专业本科生,研究方向主要集中在表征学习与视觉生成。



他认为视觉是一种高带宽的交互接口,通过连续的表示刻画现实世界,能够捕捉文本中未完全指明或缺失的规律,从而帮助 AI 更好地理解物理规律、构建鲁棒的世界模型。在具体研究上,他开发了 RLSTG(连续神经动力系统),并提出了 ChordEdit 视觉编辑框架。目前他共有三篇论文收录于顶级会议,正在积极申请 2027 年秋季入学的博士项目。



Xuhang Chen(陈绪行)

,现任惠州学院计算机科学与工程学院讲师,兼任旭日集团研究科学家。他于 2025 年在澳门大学与中国科学院深圳先进技术研究院联合培养获得计算机科学博士学位,导师为 Pun Chi-Man 教授和王书强教授;此前曾在宾夕法尼亚大学获得电气工程硕士和计算机与信息技术硕士学位,并分别获得中山大学电子信息科学与技术学士、香港中文大学电子工程学士学位。研究方向主要包括计算成像、生物医学数据处理、通用计算机视觉与多模态建模。



Minzhe Guo

,广东工业大学学生,公开资料较少。



Shichu Li

,来自深圳大学,曾参与发表论文《DWT-Net: A Medical Image Segmentation Model Incorporating Frequency Domain Information》,公开资料较少。



Jingchao Wang

,目前是北京大学计算机科学学院博士生,导师为 Yunhuai Liu。他本科就读于广东工业大学计算机科学与技术学院(2024 年 - 2025 年),随后于 2025 年进入北京大学攻读博士学位。研究方向包括多标签图像分类、节点分类、视觉提示调优等。根据 ORCID 显示,截至目前发表的 11 篇论文中,本科阶段就发表了至少 8 篇。





Yang Shi

,论文通讯作者,目前是广东工业大学计算机学院本科生,预计于 2027 年毕业。研究方向主要集中在计算机视觉和数据挖掘。从公开成果来看,他已经参与多篇顶级会议论文,研究覆盖图像编辑、视觉语言模型评测、图神经网络、时空图建模等方向。其中,ChordEdit 被 CVPR 2026 接收并获得 Best Student Paper Honorable Mention;他还以第一作者身份有论文被 SIGKDD 2026、ACL 2026 Main Conference 接收,并以唯一通讯作者身份有论文被 ICML 2026、CVPR 2026、WWW 2026 接收。





论文讲了什么?

ChordEdit 的核心贡献,在于解决了一步步生成模型在做“一步编辑”时容易出现的图像崩塌问题,实现了又快又稳的实时编辑。



一步式文本生成图像(T2I)模型带来了前所未有的生成速度,但用到文本引导的图像编辑上时,阻碍仍然存在:如果强行把现有的免训练编辑方法压缩到单步推理中,往往会失败。物体严重变形,非编辑区域的一致性明显丢失——根源在于,直接在模型的结构化场上做朴素的向量运算,会产生高能量、剧烈抖动的轨迹。

为解决这一问题,ChordEdit 提出了一种与模型无关、无需训练、也无需反演的方法。他们将图像编辑重新表述为一个传输问题:在由源文本提示词和目标文本提示词定义的源分布与目标分布之间进行传输。基于动态最优传输理论,研究者推导出一种有原则的低能量控制策略,能够得到更平滑、方差更低的编辑场,天然更加稳定,使得这一编辑场可以通过一次较大的积分步长完成遍历。

凭借这一有理论支撑并经过实验验证的方法,ChordEdit 能够实现快速、轻量且精确的图像编辑,最终让这类具有挑战性的一步式模型真正具备实时编辑能力。



在图像一致性保持和语义对齐之间,ChordEdit 取得了优异的平衡。推理时仅需 2 次网络调用(1 次传输 + 1 次可选的后处理),在一块 NVIDIA Titan 24GB 显卡上仅需 0.38 秒。显存占用仅 6988 M,远低于同类方法(如 SwiftEdit 的 15060 M)。



在 PIE-bench 数据集上,ChordEdit 的背景一致性(PSNR)、语义一致性(CLIP 分数)等多项核心指标均优于同类方法。作为一个与模型无关的插件,它兼容 SD-Turbo、InstaFlow 和 SwiftBrush-v2 等主流单步生成模型。





这篇论文在技术和理论上均有亮点,展示了理论工具在解决实际工程挑战中的独特价值。期待作者未来的更多研究。