Manus 邀请码秒过?我的 Manus 初体验
初探Manus AI Agent:通用AI助手的真实边界在哪?
Manus的热度终于降下来了,申请的邀请码也顺利到手,于是有了这次正经的初体验。严格来说,这是第一次真正上手使用这类Agent AI产品——之前看过Devin AI的Demo,也长期在用Cursor,但这些Agent基本都集中在编程领域。Manus官方给自己的定位是通用的AI Agent产品,具体的边界到底在哪,只有用了才知道。

初次上手:与Devin AI、Cursor的异同
左下角的“知识”按钮,本质上是记忆功能。之前用Monica时也见过类似设计——可能团队认为这能提升模型的使用体验。但实际用下来会发现一个矛盾:每次提问的问题往往不同,频繁调用同一份记忆,回复的准确性反而打了折扣。“记忆”这个功能确实诱人,但眼下几乎没有产品能把相关体验做到位。
核心设计:把Agent的工作流程透明化
产品的完成度相当高,能感觉到Manus的产品经理从一开始就做了精心设计。最关键的设计思路,就是让整个Agent的工作过程完全可见——浏览了什么网页、执行了什么命令、遇到了什么错误、又是如何解决的,整个工作流的步骤异常清晰。右侧有个“Manus的电脑”窗口,可以直接看到Agent在虚拟机里的操作;网页既可以在虚拟机内打开,也可以在自己的浏览器上新建标签页查看。
为什么这么做?这得从AI应用的体验说起。DeepSeek R1作为推理模型,发布时热度远超OpenAI的O1,一个重要原因就是团队把模型的思考过程展示给了用户——整个思维链、中间的推理、时而出现的“aha moment”,都让推理过程变得更加具象。正是这种具象化,与传统Chatbot的一问一答形成了巨大的体验差异。
Manus显然也希望做出同样的差异化体验,因此展示了Agent思考和执行的完整过程,甚至保留了整个过程的可回放视频。这样即使没有亲自使用产品的人,也能完整感受整个流程。下方还有一个进度条,可以随时跳到Agent思考和执行的任意时间切片。
痛点:任务执行成功率与需求理解问题
产品体验是一方面,不好的地方也正如之前所料——任务执行的成功率显然不高。第一个任务基本上可以说是失败的。尽管整体执行路径没有大错,需求是希望收集一些相关网站并用一个网页展示出来,结果一开始需求就被理解错了。
这里有个关键差异:ChatGPT的Deep Research在收到需求后会先反问,目的是对要求进行更详细和准确的梳理;而Manus在输入完指令按下回车后就直接开始干活了——到底有没有理解需求?任务目标是否达成了共识?最后发现,从开始就有个需求理解错了,运行到一半就对整个任务的成功不抱希望了。
让Agent一收到命令就开始干活,初衷当然是为了真正解放人类的双手——毕竟对话框一开始就提示,Agent干活时用户可以离开。但后续类似产品还是应该提供step-by-step的选项,基于每一步的结果允许用户做补充,或者对中间结果进行选择和丢弃。模型的长链条推理是整个使用过程中最主要的成本来源,如果能在错误发生时及时停止,不仅能提升用户体验,还能大幅降低产品成本。
否则AI Agent很容易陷入“一步错,步步错”的困境。这种情景很可能源于大语言模型的幻觉——就像有时模型会重复吐字,又或者DeepSeek R1聊到量子力学、黑暗森林法则时就开始放飞自我。
至于任务的执行时间,当然是因任务而异,但这其实是最不需要担心的——随着技术发展,速度体验的提升是可以预期的。