manus测试,让manus来做两个分析类的任务
来源:互联网
时间:2026-06-22 17:14:03
今天拿到邀请码后做了两个实测,跟大家聊聊真实表现。先说结论:有亮点,但远没到“碘伏性”的程度。两个任务的链接都放在文末了,感兴趣的可以自取。
游戏评论分析:暴露了最核心的问题
第一个任务,让manus分析《苏丹的复仇》在Google Play中东地区的用户评论。任务发过去之后,它没有先列任务清单、做规划,而是直接上手搜索。结果刚到关键页面就碰到了障碍——页面访问出错。于是它转而用阿拉伯语搜索相关网页,找到后逐页浏览、拉到评论区、读取内容,再翻译成中文进行分析整理。最后还主动问要不要做成网页展示。
看到这你可能觉得挺智能的,对吧?但实际效果嘛——它一共只收集到了
。
原因很简单:网页默认只显示了3条。我原本以为是没登录导致的限制,自己登录去验证,发现确实也只显示3条。其实Google Play的评论区有个“展开所有评论”的选项——就在用户评论和评分中间那行绿色的阿拉伯文字。模型没识别到这个按钮,自然就只拿到3条。这不是技术能力问题,而是
。
更遗憾的一点是,它没有尝试用爬虫类技术来解决问题。GitHub上有个现成的开源库叫google-play-scraper,填上应用名称、地址、评论条数就能批量抓取数据。但manus显然不知道这个工具的存在,也没尝试自己写爬虫代码。两次部署网页失败后,它直接放弃了,只导出了源码。
说句实在话,这个活儿一个初级数据分析师配上Claude写前端页面就能搞定,而且做得比这个深入得多。
热门大模型分析:框架还行,细节不够硬
第二个任务,让manus对当前热门大模型做一份分析报告,涉及应用场景、定价等方面。这次它倒是规规矩矩地列了todolist,分步执行,还成功做了公网部署。
乍一看挺像回事儿,但仔细看就有问题了。它给出的模型价格表格里,OpenAI那部分的数据和官网最新价格对不上——参考链接不是官方页面,时效性明显不够。Claude的价格倒是准的,Gemini我没去验证,不好下结论。不过有一点值得提:现在Claude 3.7才是主流版本吧?3.7在写代码写文章方面的表现比3.5强太多了,报告里直接略过这点有点可惜。
对比分析部分也只能说中规中矩。拿来做个PPT、应付一下汇报肯定够用,要拿来当严谨任务的依据就悬了。整体框架存在一个AI报告的常见问题:写得比较笼统,每个点都是一句话带过,要真正落地还得不断细化、追加需求。
两个任务测下来,我的判断是:manus在任务拆解和执行流程的自动化上确实有进步,但在理解页面细节、调用合适的工具链、保证信息的准确性和时效性这几个关键环节,跟人类专家的差距还很明显。现阶段大家不必过度焦虑,真正能全面替代人类专业判断的AI,还需要更多迭代。