AutoResearch时代,47个没有标准答案的任务成了Agent能力必测榜
如果把AI扔进一个
没有标准答案
长久以来,AI智能体(Agent)看似无所不能,但细究起来,多数时候只是在已知的知识库里“翻找记忆”。它们擅长回答有明确对错的问题,就像考场上的优等生。
然而,真实的工程世界要残酷得多。水下机器人的姿态稳定性、动力电池的快充析锂边界、量子线路的噪声控制……这些问题没有教科书式的“满分答案”,只有永无止境的
“逼近极限的优化”
最近,
Einsia AI旗下Na vers lab
Frontier-Eng Bench
面对
47个
这不仅仅是一个测试集,更像是一场关于智能体如何“进化”的预演。当AI开始学会在持续反馈中自我修正,那个由人类设定目标、AI则24小时不间断迭代优化的
自动化研究(Auto Research)
AI开始干“硬活”了
过去的大模型,更像一个知识渊博的“超级学霸”。你提出问题,它从海量的训练数据中检索、拼接,给出一个看起来合理的答案。这种模式的本质,更像是在玩一场复杂的“文字接龙”,而非解决一个真实的、动态的工程问题。
但Frontier-Eng Bench的出现,改变了游戏规则。它迫使AI去干
“工程优化”
在这个闭环里,AI的身份发生了质变:
- 想让水下机器人更稳定?AI得自己去调整控制器的参数。
- 想把机械臂的运动速度再提升一点?AI必须亲自运行动力学仿真,观察结果。
某种程度上,AI已经脱离了单纯的语义理解层面,开始像一个
职业工程师
Frontier-Eng Bench最有趣的地方在于,它的评价标准不是“答对了没有”,而是
“AI能不能持续变强”
以电池快充优化为例,目标听起来很直接——充电速度越快越好。但现实约束极为严苛:温度不能超标、电压必须稳定、电池寿命衰减要可控,还要极力避免析锂等安全隐患。AI必须在这些相互掣肘的条件中,精准地踩中那个微妙的性能平衡点。
这意味着,任何取巧的“刷题”策略在这里都行不通。AI必须在长周期的反馈中,展现出持续进化的耐力和寻找突破口的智慧。
那么,AI到底能不能在真实环境里做这种长期优化呢?从评测结果看,
GPT-4
Auto Research进入“迭代优化”时代
研究团队在论文中提出了一个深刻的观点:真正高级的智能,本质上都依赖于长期的反馈闭环。
真正高级的智能,本质上都依赖长期反馈闭环。
这很好理解。AlphaGo能够击败人类顶尖棋手,关键不在于它记住了多少棋谱,而在于其每一步决策背后,都伴随着
海量的自我模拟与即时反馈
工程优化更是同理。做出第一个能用的版本往往不难,真正的挑战在于最后那1%甚至0.1%的性能提升,那才是区分平庸与卓越的关键。
Frontier-Eng Bench的意义,就在于它首次开始系统性地测试AI的“迭代优化能力”,并从中总结出了两条近乎残酷的进化规律。
第一个规律是:越往后,提升越难。
论文发现,智能体的改进频率和幅度都呈现出明显的幂律衰减趋势:改进频率大致与迭代轮数成反比,而改进幅度则与改进次数成反比。
- 改进频率 ∝ 1/迭代轮数
- 改进幅度 ∝ 1/改进次数
简单来说,就是前期进步神速,能快速摘取“低垂的果实”;但越接近性能瓶颈,每一点微小的提升都需要付出巨大的努力,改进会变得越来越慢、越来越小。这完美复现了真实研发过程中的“收益递减”现象。
那么,一个很自然的想法是:多开辟几条优化路径并行探索,用“宽度”来换取“深度”,会不会更有效率?答案藏在第二个规律里。
第二个规律:宽度有用,但深度不可或缺。
并行多条探索链确实有助于避免陷入局部最优,但在总计算预算固定的前提下,每多开一条链,就意味着每条链所能进行的深度迭代会被摊薄。而很多工程上的突破,恰恰需要在一个方向上持续积累、不断微调,才能产生结构性的质变,并非靠简单的“多试几次”就能实现。
这其实为下一代智能体的发展指明了方向:未来的AI不应再是那个追求“一次给出完美答案”的模型,而应该成为一个
能够在长周期反馈中持续迭代、自我进化的自治系统
AI工程师,可能真的要来了
这项研究更深远的启示在于,它初步勾勒出了一套
开始接近真实工程循环的AI系统框架
试想一下,当这样的AI能力接入工业软件、高保真仿真环境、CAD设计工具、芯片EDA平台或科学计算软件时,一场生产力模式的剧变将呼之欲出。
未来的研发实验室里,可能会出现一种全新的分工模式:人类研究员负责提出宏观方向和关键目标,比如“将这个部件的能耗降低30%”、“在保证精度前提下压缩模型的前向计算开销”、“将机器人控制的稳定性再提升一个量级”、“让量子线路的保真度无限逼近理论极限”。
而AI则负责“死磕路径”,围绕这些既定目标,不知疲倦地运行仿真实验、读取验证器(verifier)和仿真器(simulator)的反馈、修改参数与代码,24小时不间断地迭代优化。
这种进化逻辑,使得AI正在摆脱“辅助工具”的单一身份,开始像一个真正的、协作的工程团队那样,去系统性解决复杂问题。
当然,Frontier-Eng Bench所揭示的问题也同样直接:当AI初步学会了“长期优化”,它距离我们理想中那个具备真正工程智能的伙伴,究竟还有多远?这既是挑战,也是通往下一个时代的入口。
论文题目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
项目主页:https://lab.einsia.ai/frontier-eng/
Arxiv: https://arxiv.org/abs/2604.12290
GitHub repo: https://github.com/EinsiaLab/Frontier-Engineering