DeepSeek研究员让AI自己研究自己,AI执笔99%,6天搞定45页论文
昨晚,AI研究圈被一篇特别的论文刷屏了。DeepSeek资深研究员陈德里(Deli Chen)发布了他与智能体“合著”的45页综述,而其中99%的内容,都由他搭建的自主研究智能体“DeliAutoResearch”完成。
这篇题为《从Copilots到同事:自主科研智能体综述》的论文,作者栏赫然写着:陈德里、DeepSeek-V4-Pro、GPT-Image2。这或许标志着,AI在科研协作中的角色,正从“副驾驶”迈向“同事”。

陈德里特意附上了一份“免责声明”:这篇论文并非严谨的学术论文,也不代表任何公司或组织的官方观点,纯粹是出于个人兴趣,并顺便测试一下他搭建的这套自动化研究系统。

整个创作过程堪称高效。论文共迭代了6个版本,从启动到完成仅耗时6天,而生成初稿更是只用了76分钟。期间,智能体累计运行了约108轮,消耗了64.8万个Token,生成了2234行LaTeX代码,最终产出了一份45页、包含7个图表和4个表格的PDF文件,大小538KB。陈德里本人也不禁感慨,同样的工作量在过去至少需要一个月,而这次他亲自投入的“CPU运转时长”还不到2小时。
作为DeepSeek-V1到V4系列模型以及DeepSeek-R1、DeepSeek-Coder、DeepSeek-MoE等架构的核心贡献者,陈德里的这次“实验”无疑具有风向标意义。这篇论文系统梳理了机器学习、软件工程、科学发现三大领域的105篇文献,旨在为自主研究智能体建立一个统一的分析框架,并得出了四项核心成果。

01.当前系统多为能独立产出论文的L4级,已有系统展现出L5级特征
01.当前系统多为能独立产出论文的L4级,已有系统展现出L5级特征
论文首先为“自主研究智能体”下了定义:这是一类能够在接收到高层研究目标后,独立执行“假设生成-实验设计-执行-分析-迭代优化”这一完整科学探究闭环的软件系统,整个过程仅需极少甚至无需人工干预。
为了清晰界定不同系统的能力,研究提出了一套五级自主能力分级体系(L1-L5)。这个体系主要基于两个维度来衡量:一是智能体能够独立决策的内容范围,二是它在无需人工审核的情况下能够持续自主运行的时间长度。

L1级:代码补全助手。
L2级:对话式AI助手。
L3级:代码智能体。
L4级:自主研究系统。
L5级:完全自主的“科学家”。

02.四大主流架构可适配不同层级系统
02.四大主流架构可适配不同层级系统
那么,不同层级的系统是如何构建的呢?论文归纳了四大主流架构模式:单智能体循环、多智能体协作、分层编排以及工具增强执行。

单智能体循环(ReAct/Reflexion):
多智能体协作(MetaGPT/AutoGen):
分层编排(Supervisor-Worker):
工具增强执行(CodeAct):

总的来说,不同层级的系统对架构有天然的选择倾向。L2级系统用简单的单智能体循环就能高效运行;L3级系统采用具备反思机制的Reflexion架构,能天然嵌入检查点,收益最大;L4级系统通常需要分层编排架构,搭配自主迭代优化,才能在长时间运行中保持稳定输出;而理论上未来的L5级系统,很可能需要具备动态自重组能力的图结构架构才能实现。
03.三大结论:开闭源差距收窄,专用智能体超越通用,代码智能体最成熟
03.三大结论:开闭源差距收窄,专用智能体超越通用,代码智能体最成熟
基于一套六维特征矩阵(自主等级、核心领域、架构模式、工具集成、评测方法、开源属性),论文对17款主流系统进行了深入分析,得出了几个关键结论。

结论一:代码智能体赛道最为成熟。
结论二:专用智能体全面超越通用智能体。
结论三:开源与闭源的性能差距正在迅速缩小。
关于如何评估这些智能体,论文指出了三个核心方向:采用
多维度指标
长周期评测
社群化评估
最后,论文梳理出智能体系统面临的
六大核心挑战

其中,
认知死循环、原创性评测和安全问题
04.结语:双AI协作产出完整论文,智能体真变身科研同事了
04.结语:双AI协作产出完整论文,智能体真变身科研同事了
陈德里的这次实验,不仅仅是一次技术演示。它让智能体实现了从研究想法到完整论文的“端到端”自主产出。仅投入2小时的人类高阶思考时间,通过双AI模型的协作,就能产出一篇结构完整的领域综述,这有力地证明了AI从“工具”进化为“科研同事”的可行性已不再是理论。
这次任务是一次长周期、多流程的复杂工程,而最终生成的论文逻辑清晰、没有偏离主题,这恰恰展现了当前先进智能体系统所具备的三项核心能力:超长文本的连贯处理、长流程任务的持续执行,以及贯穿始终的逻辑一致性。
在自主科研智能体这个前沿领域,陈德里不仅用一个有趣的实验展示了技术的潜力,更通过一篇详实的论文剖析了领域的现状与痛点。这种“知行合一”的尝试,或许为后续智能体如何更深入、更可靠地融入科研工作流,提供了一个新颖而有力的参考方向。