马维斯(Marvis)实测:他给了我一些可以独处的时间
最近这两天,微信朋友圈被一个名叫「马维斯」(Marvis)的AI助手刷屏了。
这是腾讯应用宝团队推出的新产品,官方给它的定位很激进——
「操作系统层级」的AI助手
官方宣传稿的标题很直白:
「装上就有6个AI牛马帮你干活」

作为一个每天被选题、写稿包围的媒体人,对这种"全能型数字助理"毫无抵抗力,正好借机梳理下工作流。于是下载,开始了这场48小时的真实测试,看看Marvis能不能成为我的真实生产力。
以下所有体验,均为纯个人真实操作记录。
当"明确要求"遇上"执行偏差"
当"明确要求"遇上"执行偏差"
做自媒体,选题是核心,而选题的前提是信息收集。
所以,和平时使用其他AI模型一样,先让Marvis帮忙搭建一个"AIHOT"的资讯追踪任务,准备从热点中找找创作灵感。
任务创建很顺畅,Marvis很快通知已生成文件。但满怀期待地打开输出文档时,映入眼帘的却是
满屏乱码
说实话,这是用过这么多大模型和AI工具以来,
第一次遇到输出文件乱码的情况

但这里有个值得细究的细节:
写入指令里明明是明确要求了UTF-8的,执行环节却"漏"掉了这一步。
这让人想到一个更深层的问题:当AI助手拥有直接操作系统文件的权限时,
"理解指令"和"严格执行指令"之间,其实还隔着一道执行的鸿沟
系统级AI的第一次考验,不是"能不能做",而是"能不能稳定、不出错地做"。
第一印象并不美好,但好在自己勘误能力还算ok。
AI的"时间感知"竟然会翻车?
AI的"时间感知"竟然会翻车?
写完一段稿子,想让Marvis帮忙定个闹钟,劳逸结合提醒一会上来活动活动。没想到,这个最简单的指令,却上演了一出"四幕剧"。
第一幕:时间幻觉(9:40 → 设10:00闹钟)
当时时间是9:40,让Marvis设一个10点的闹钟。结果它"自圆其说"地告知:10点已经过了,于是创建了
明天10点

当场震惊。9:40到10:00明明还有20分钟,Marvis是怎么判断"时间已过"的?这个bug暴露了一个问题:
AI对"当前系统时间"的感知,在某些场景下会出现逻辑漂移。
仔细思考下这个逻辑漂移问题,有可能是agent调用了错误的工具导致抓取错误,也有可能是模型返回的具体时间有问题,短期看还好,如果长期使用,稳定性一定是生产力中的关键要点,基础信息的判断,Marvis确实还有待加强。
第二幕:正常发挥(10:30闹钟)
不死心,重新测试,设了一个10:30的闹钟。这次没有任何停顿,任务立刻创建成功。
第三幕:保守策略(8:00闹钟)
故意选了一个已经过去的时间(8:00)。这次它没有再犯"时间幻觉"的错误,而是切换到了另一种交互模式:
弹出手动确认窗口,要求你在系统层面亲自确认

这种"拿不准就交给人"的策略,虽然慢了一步,但起码不犯错,好评。
第四幕:进化自查(10:08闹钟)
第四次,设了一个10:08的闹钟。这一次,Marvis的表现完全不同了——它开始
自查

这之后又反复测试了几次,均没有再出现问题,任务创建变得及时且便捷。
这四次闹钟测试,几乎浓缩了AI产品迭代的典型路径,从幻觉犯错,到保守兜底,再到自查修正。Marvis的学习和纠错速度,比想象中快。
图片生成与识别,仍是短板
图片生成与识别,仍是短板
稿件准备得差不多了,需要配图。尝试用Marvis生成图片,结果
质量确实有点拉胯,
随后又测试了它的"找图"能力,特别是
人物识别
更尴尬的是,反过来拿着它找到的图片问"这是谁",它也只能给出泛泛的描述,
无法准确说出人名

后来研究了才发现:
Marvis目前没有人脸生物识别比对的权限和能力。
不过"小马"还是给了一个小惊喜,就是它的"本地知识库"。在选图的时候发现,它会把我本地的图片和文档纳入一个整体的库里,形成一个全局图库。要知道,媒体人的桌面,一般都是这样的。

图片仅供参考,实际更乱
对于文档类的内容还好,但是图片类的信息真的是存进电脑几乎就再也找不到了。而这个本地知识库就可以支持用模糊语意去寻找固定内容了,提效不少。
在图片生成和人物识别这两个维度上,Marvis目前还不能替代专业工具。它的优势不在"创作视觉内容",而在"帮你调用和管理视觉内容"
批量操作才是"系统级AI"的真正主场
批量操作才是"系统级AI"的真正主场
文章写完后,进入最枯燥的环节:多平台同步。手里有一个Excel表格,里面存着微信公众号、知乎、头条号、微博等所有平台的发布链接。
以前这个流程是这样的:找到表格→ 打开 → 逐个复制链接 → 粘贴到浏览器 → 登录 → 发布。全程手动,至少折腾十几分钟。
这次让Marvis直接读取桌面上的表格文件,打开里面所有网址。原本以为会卡顿,甚至做好等三五分钟的心理准备。结果
不到一分钟
后面还让它整理了电脑里散落的旧稿件,统一梳理命名规则。这些"体力活"它都完成得干净利落。
创作间隙,随手让它"打开网易云,放首歌",它也能秒响应。甚至最后,让它扫描了一遍电脑里可卸载的App和陈年图片。它不仅分析得很快,对卸载建议还说得头头是道;那些藏在磁盘深处、自己都忘了的老照片,也被它翻出来整整齐齐理了一遍。
看着老照片,听着“网抑云”,独属于某人的时刻,降临了。反正今天的活儿,Marvis也帮着干了不少,那么就进入今日Emo时刻吧。

Marvis的真正价值,在于把"重复性、流程化、跨应用"的脏活累活自动化。它不是替代你的大脑,而是替代你的手指。
为什么它总在"确认"?
为什么它总在"确认"?
在整个测试过程中,注意到Marvis有一个非常鲜明的交互特征:
频繁确认
删除文件前确认、修改设置前确认、执行可能影响系统的操作前确认……几乎每一步涉及"写操作"的环节,它都会停下来问:"确定要这样做吗?"
这让人想到之前的一篇稿子:Gemini 3.5删了两万八千行代码后,给自己写了封表扬信。两件事放在一起看,反差极大。
Marvis的"过度确认",
究竟是AI没有完全释放其便捷性
开发者刻意把最终决定权牢牢握在用户手中,划定一条"不越界"的安全线
值得思考的是:
在系统级权限面前,"保守"比"激进"更负责任。
权限敬畏
当然,这也带来一个体验上的trade-off:有时候你会觉得"有点啰嗦"。如何在"安全"和"流畅"之间找到更好的平衡点,是Marvis下一步需要优化的方向。
它还不是"终极形态",但方向对了
它还不是"终极形态",但方向对了
48小时体验下来,总体感受是:
Marvis目前更像一个"高级实习生",
它的优势非常明确:
系统级整合能力、跨应用调度能力、本地文件操作能力。
它的短板也很清晰:
时间感知偶发幻觉、图片生成与识别能力弱、高频确认影响操作流畅度。
最后必须诚实地说:个人使用的时间还太短,很多功能(比如手机App跨屏操作、复杂工作流编排)完全没有深入测试。以上体验,仅限于一个自媒体人日常工作中真实接触到的场景。
如果你也厌倦了在十几个应用之间来回切换、被琐碎操作吃掉大量时间,Marvis值得一试。它未必能让你立刻拥有"6个AI牛马",但至少,