首页 > 教程攻略 > 热点新闻 >桌面Agent爆发,阿里QoderWork能干杂活,但只有实习生水平

桌面Agent爆发,阿里QoderWork能干杂活,但只有实习生水平

来源:互联网 时间:2026-06-11 10:13:42

「AI 实习生,正式上岗了。」

不久前,阿里正式推出了 QoderWork。它脱胎于原有的 Qoder 代码 Agent,将能力拓展到了日常办公场景。核心诉求很明确:桌面 AI 不应该只停留在「回答问题」,而应该开始「完成工作」。听起来是不是有点耳熟?腾讯的 Ma vis、月之暗面的 KimiWork、社区大神做的 DeepSeek GUI…… 大家其实都在做同一件事——挑战 Codex 的叙事。QoderWork 主打的也是那一套:文件整理、数据分析、文档生成、研究整合、浏览器自动化,几乎全覆盖。

(图源:QoderWork)

这类 Agent 相较于 Codex 的最大优势,自然是更接地气。QoderWork 底层模型跑的是千问,目前 Qwen 3.7 Max 限时 15 天免费,可以说相当良心。

不过说实话,过去两个月「桌面 AI Agent」这个词已经被各大厂商反复提及,个个都说自己能干活。那到底行不行?以下是雷科技体验完 QoderWork 之后的真实感受。

QoderWork 长得就不像聊天机器人,这很重要

QoderWork 和主流 AI 工具的使用方式有很大不同。拿千问网页端来说,通常是你问一句,它答一句,记录在聊天记录里。而 QoderWork 的逻辑是任务化的:你发起一个目标,它拆成若干执行步骤,跑完之后把产物归集成文件。任务全程保留在列表里,可以回溯、继续、监控——这更像一个项目管理系统,而非对话窗口。

听起来似乎区别不大,但实际体验差异显著。以我们某次实测任务为例,在任务模式下,「苹果 WWDC2026 文章」「雷科技商务介绍 PPT」「IFA 2026 专题网页」都作为独立的项目挂在左侧列表。点进去,可以查看每一步的执行过程、查看最终产物文件,还能在原来的对话基础上继续调整。如果只是 AI 聊天,聊完也就结束了——你得到一些回答,仅此而已。

(图源:雷科技制图)

QoderWork 的右侧设有「任务监控」区域,它会列出待办步骤、最终文件、工作文件以及调用过的技能和 MCP 能力。在第一轮文章任务里,任务监控清晰展示了「研究雷科技写作风格-搜集 WWDC 2026 信息-提出选题角度并选定方向-撰写完整文章-生成 Word 文档」这整条链路。至少,它能让你大致了解 AI 在每个阶段都做了什么。

(图源:雷科技制图)

在功能层面,QoderWork 提供了「专家套件」「技能市场」「定时任务」和「应用快照」。所谓专家套件,是将能力按岗位打包——法律、产品、合同、投研、财税,安装完整套装就能直接用,省去了自己拼搭工具的麻烦。技能市场则更接近插件机制,涵盖了深入研究、数据分析、PPT 生成、Notion 信息图等。在第二轮 PPT 测试中,QoderWork 主动调用了 PPT 技能,又在发现系统缺少 Node.js 环境时询问用户是否要安装依赖。这个行为说明,它具备主动补齐工具链的意识和能力,会实实在在地把任务推进到最终文件。

(图源:雷科技制图)

定时任务这部分就很好理解了。官方提供的案例包括「午间充电站」「每周竞品动态追踪」「每日下载文件夹清理」「每日数据报表更新」,都可以设置成定期自动执行。如果稳定可靠,它的长期价值显然远超普通聊天助手。不过也要注意:目前这些定时任务需要电脑保持唤醒才能执行,一旦断网或关闭屏幕就会失效。

(图源:雷科技制图)

此外,「应用快照」这个功能也同步上线。简单来说,它能把最前方的应用界面捕获为截图和可读文本上下文,让 QoderWork 能「看见」用户当前正在使用的界面。这正是桌面 Agent 真正区别于网页 AI 工具的地方,也是权限门槛最高的部分。启用后,需要授予 QoderWork Computer Use、屏幕录制和辅助功能权限。在 macOS 上,首次授权流程可能会耗上一段时间。

(图源:雷科技制图)

整体来看,作为一个版本号还停留在「0.5」的桌面级 Agent,QoderWork 该有的功能基本都有了。技能、任务的选择相当丰富,任务链和思考流程也很完善。更值得称赞的是限时免费的 Qwen 3.7 Max——这大概也是目前最强的代码模型之一了。

写文章、做 PPT、搞网页,这个Agent真能干活

我们给它设计了三类测试,尽量贴近科技媒体编辑部的实际工作需求。第一轮,让它学习雷科技的写作风格,完全自动化地写一篇苹果 WWDC 2026 的文章,并生成 Word 文档;第二轮,让它从 0 开始制作一份雷科技的商务介绍 PPT;第三轮,则是让它做一个 IFA 2026 展会报道专题网页——代码、交互、响应式,一个都不能少。

第一轮:写文章报道 WWDC,结果事实有点纰漏

第一轮的任务是让 QoderWork 研究雷科技近期的文章写作风格,整理苹果 WWDC 2026 的重点信息,最终产出一篇符合雷科技风格的稿件并生成 Word 文档。这其中包含了资料搜索、风格识别、选题判断、长文写作和文档交付,基本上是编辑助理的完整工作链路。

QoderWork 完整地跑通了整个流程。它分析了雷科技的写作风格,搜集了 WWDC 2026 的信息,给出了三个选题角度,在获得用户确认后继续撰写,最终生成了 Word 文档。这个「等待用户确认」的动作值得单独拎出来说——它在关键决策节点上停了下来,没有擅自推进,说明它在一定程度上具备了「可控执行」的意识。

(图源:雷科技制图)

最终产出的文章,标题是《Siri 换脑重生!苹果 WWDC 2026 最大的悬念:补课两年,AI 这仗还能打赢吗?》,正文约 3500 字,包含导语、小标题、观点判断和结尾互动。它努力写成了一篇有立场的科技媒体稿,有短句开头、口语化判断,也有围绕核心问题的结构。方向是对的。

但问题也很明显。文章里出现了不少需要强来源支撑的信息,比如「每年 10 亿美元」「1.2 万亿参数 Gemini」「macOS Golden Gate」「放弃 Intel Mac 支持」「第三方 AI 模型作为默认对话引擎」。这些内容没有可靠的公开来源就直接写进正文,是非常典型的 AI 写稿问题——成稿看起来像模像样,但事实的可靠性存疑。对科技媒体来说,这一点非常致命。

(图源:雷科技制图)

在风格模仿上,「小雷哔哔」「苹果终于急了」「慢如蜗牛」「掰开揉碎了聊」这类表达密度明显偏高。它更像是在刻意模仿风格,而不是真正内化了那种有判断力、有信息密度的写法。真正能发布的稿子,应该把口语感压一压,把判断力和信息量提上来。

(图源:雷科技制图)

综合来看,第一轮可以给到 7.5 分。它确实能完成编辑助理级别的完整工作流,但还当不了责任编辑——事实核验和风险判断依然需要人工把关。

第二轮:PPT确实做出来了,但审美差强人意

第二轮任务则是让 QoderWork 从 0 开始,做一份介绍雷科技的商务 PPT。假设受众是潜在合作伙伴,要求它搜索公开资料,整理媒体定位、内容方向、受众和合作价值,并生成可打开的 PPT 文件。

(图源:雷科技制图)

过程中发生了一件很能说明 QoderWork 能力边界的事:它发现系统缺少 Node.js 和 npm 环境,于是向用户请求安装 Node.js v20 LTS,获得允许后自行下载安装依赖,又继续安装 PPT 技能所需的 npm 包,最后才生成文件。常见的 AI 聊天工具遇到环境缺失时,通常只停留在「建议层」——告诉你该装什么,但不会自己动手。而 QoderWork 会主动尝试补齐工具链,真正把任务推进到文件生成,这是一个质的差别。

(图源:雷科技制图)

最终的产物是《雷科技商务介绍.pptx》,共 13 页,结构包括封面、目录、雷科技是谁、我们关注什么、内容优势与影响力、为什么值得合作、合作方式和致谢页。它很清楚这是给合作伙伴看的商务材料,结构逻辑是正确的。封面和版式也有一定的设计感,卡片、章节页、数据高亮页基本完整。作为 15 分钟左右生成的初稿,效率确实没得说。

(图源:雷科技制图)

但它最遗憾的问题,是商务 PPT 第一页最重要的东西缺失了:雷科技真实的 logo。它使用了生成插画或泛科技视觉来代替。坦白说,缺少公司 logo 对于一份商业合作介绍 PPT 来说,是非常不专业的。

另外,目录页还出现了模板残留的「05 I am the chapter name」,最后一页用了英文「Thank you!」。这些是低级但明显的瑕疵,说明它虽然声称验证了 PPT,实际上并没有做到逐页检查。PPT 内使用的「全平台粉丝 600 万+」「AWE 单次报道阅读 900 万+」等数据,声称来自公开资料,但没有任何脚注或来源说明,用在商务材料里是需要重新核实的。

(图源:雷科技制图)

第二轮同样是 7.5 分。它确实从 0 到 1 做出了可打开、结构完整、有视觉设计的文件,但距离「可以直接发给客户」还有一定距离。不过话说回来,目前几乎所有 Agent 做 PPT 都很难一次就抽到 100% 满意的成品,这个效果尚在可接受范围内。

第三轮:做一个展会专题网页,这回完成度很高

不愧是 Qwen 3.7 Max,这第三轮做专题页的效果,确实令人眼前一亮。

第三轮任务,是让 QoderWork 为雷科技做一个 IFA 2026 展会报道的专题网页。要求它参考雷科技正式的展会专题页,但不照搬设计。页面需要包含首屏大标题、展会导语、重点报道、现场快讯、图集、深度评论、展品分类,用 HTML、CSS 和 Ja vaScript 生成一个可本地打开的静态网页。

(图源:雷科技制图)

先检查我们的需求它有没有做到。页面包含 7 个 section:首屏、导语、重点报道、展品速览、现场快讯、图集、深度评论。导航栏可以跳转,卡片有 hover 效果,展品分类支持「全部、AI 硬件、智能汽车、智能家居、手机数码、机器人」的切换。桌面端和 390px 手机宽度下没有横向溢出,控制台也没有报错。移动端切换了汉堡菜单,页面主体显示正常。0 出错,完成度相当高。

(图源:雷科技制图)

深色科技风、蓝色高亮、固定导航、几何装饰元素和卡片布局基本完整。更重要的是,它写了真实可运行的代码,功能能跑、交互能触发,而不是只生成了一张截图。这一轮最接近「桌面 Agent 帮用户完成一个前端任务」的理想预期,也是 QoderWork 在三轮测试里表现最扎实的一次。

硬要挑刺的话,还是没有使用真实 logo,用了蓝色方块加「L」代替。demo 阶段可以接受,但真实上线版本当然不行。此外,图集和产品视觉大量使用 emoji 代替——机器人、汽车、手机、耳机一排排摆着。因为目前没有接入真实内容,它找了一些零散的文章来填充,做法可以理解,只是美观度上还有提升空间。

(图源:雷科技制图)

第三轮的话,可以给到 8 分。它证明了 QoderWork 在静态网页生成上,已经比写稿和做 PPT 更接近可交付的状态。

这三轮体验下来,能明显感觉到 QoderWork 确实已经实现了从「只会回答」到「能干活」的阶段性跨越。但目前成品的质量,可能还需要多抽几次卡、多调整一下才能真正投入到工作流中。

国产桌面 Agent,依然只是“实习生”水平

桌面 AI Agent 这件事,近一年被反复提及,但真正能让人觉得「它在替我完成工作,而不是在协助我工作」的产品,其实屈指可数。QoderWork 做到了吗?三轮测试给出的答案很接近,但距离完全解放双手,还有一段路要走。

这件事的本质,其实是一个权力与责任的问题。普通 AI 聊天工具的逻辑是「我给你建议,你来决定」——用户得到的是一段文字,然后自己决定要不要去做。QoderWork 试图改变的是「我直接交付成品,你来使用或调整」这一模式。这一步的跨度,比表面上看起来要大得多。因为「交付成品」意味着 AI 要对内容质量负责——事实准不准确、格式合不合规,一旦出现错误,很可能需要推倒重来。

(图源:雷科技制图)

QoderWork 目前很好地解决了「从 0 到有初稿」的问题,但还没有解决「从初稿到直接能用」的问题。当然,退一步讲,目前也没有哪个 Agent 能说自己每次都能一次命中、直接给出可用的成品。

所以,更合适的说法是:QoderWork 是一个桌面级的「AI 实习生」。它能干活,但未必干得漂亮;它能省去很多起步阶段的时间成本——比如写一篇文章,你至少不用从零开始一点一点收集资料。至于它什么时候能从「做出初稿」进化到「可以放心交付」?或许,就要交给时间去验证了。