首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >马维斯（Marvis）实测：他给了我一些可以独处的时间

马维斯（Marvis）实测：他给了我一些可以独处的时间

来源：互联网时间：2026-05-28 13:24:01

最近这两天，微信朋友圈被一个名叫「马维斯」（Marvis）的AI助手刷屏了。

这是腾讯应用宝团队推出的新产品，官方给它的定位很激进——

「操作系统层级」的AI助手

。什么意思？它不再满足于像ChatGPT、Claude那样只在浏览器里陪你聊天，而是直接扎根在你的Windows系统里，拥有调用本地文件、修改系统设置、启动应用程序、甚至跨屏操作手机App的权限。

官方宣传稿的标题很直白：

「装上就有6个AI牛马帮你干活」

。

作为一个每天被选题、写稿包围的媒体人，对这种"全能型数字助理"毫无抵抗力，正好借机梳理下工作流。于是下载，开始了这场48小时的真实测试，看看Marvis能不能成为我的真实生产力。

以下所有体验，均为纯个人真实操作记录。

当"明确要求"遇上"执行偏差"

做自媒体，选题是核心，而选题的前提是信息收集。

所以，和平时使用其他AI模型一样，先让Marvis帮忙搭建一个"AIHOT"的资讯追踪任务，准备从热点中找找创作灵感。

任务创建很顺畅，Marvis很快通知已生成文件。但满怀期待地打开输出文档时，映入眼帘的却是

满屏乱码

。

说实话，这是用过这么多大模型和AI工具以来，

第一次遇到输出文件乱码的情况

。随即在对话框里指出问题，Marvis的响应倒是很快——它立刻"意识到"了问题所在，并告知：任务说明里已经明确要求了UTF-8编码，乱码通常是因为写入文件时编码未显式指定导致的。

但这里有个值得细究的细节：

写入指令里明明是明确要求了UTF-8的，执行环节却"漏"掉了这一步。

这让人想到一个更深层的问题：当AI助手拥有直接操作系统文件的权限时，

"理解指令"和"严格执行指令"之间，其实还隔着一道执行的鸿沟

。Marvis能听懂你要什么，但在调用底层系统API写入文件时，那个"编码参数"的传递出现了断层。好在指出后它迅速修正，任务恢复正常。

系统级AI的第一次考验，不是"能不能做"，而是"能不能稳定、不出错地做"。

第一印象并不美好，但好在自己勘误能力还算ok。

AI的"时间感知"竟然会翻车？

写完一段稿子，想让Marvis帮忙定个闹钟，劳逸结合提醒一会上来活动活动。没想到，这个最简单的指令，却上演了一出"四幕剧"。

第一幕：时间幻觉（9:40 → 设10:00闹钟）

当时时间是9:40，让Marvis设一个10点的闹钟。结果它"自圆其说"地告知：10点已经过了，于是创建了

明天10点

的闹钟。

当场震惊。9:40到10:00明明还有20分钟，Marvis是怎么判断"时间已过"的？这个bug暴露了一个问题：

AI对"当前系统时间"的感知，在某些场景下会出现逻辑漂移。

仔细思考下这个逻辑漂移问题，有可能是agent调用了错误的工具导致抓取错误，也有可能是模型返回的具体时间有问题，短期看还好，如果长期使用，稳定性一定是生产力中的关键要点，基础信息的判断，Marvis确实还有待加强。

第二幕：正常发挥（10:30闹钟）

不死心，重新测试，设了一个10:30的闹钟。这次没有任何停顿，任务立刻创建成功。

第三幕：保守策略（8:00闹钟）

故意选了一个已经过去的时间（8:00）。这次它没有再犯"时间幻觉"的错误，而是切换到了另一种交互模式：

弹出手动确认窗口，要求你在系统层面亲自确认

。

这种"拿不准就交给人"的策略，虽然慢了一步，但起码不犯错，好评。

第四幕：进化自查（10:08闹钟）

第四次，设了一个10:08的闹钟。这一次，Marvis的表现完全不同了——它开始

自查

：先核对当前时间，再确认目标时间是否合理，最后才执行创建。

这之后又反复测试了几次，均没有再出现问题，任务创建变得及时且便捷。

这四次闹钟测试，几乎浓缩了AI产品迭代的典型路径，从幻觉犯错，到保守兜底，再到自查修正。Marvis的学习和纠错速度，比想象中快。

图片生成与识别，仍是短板

稿件准备得差不多了，需要配图。尝试用Marvis生成图片，结果

质量确实有点拉胯，

画面模糊、风格不统一。

随后又测试了它的"找图"能力，特别是

人物识别

。让它找某位公众人物的照片，讲道理，这是属于自家生态的强势领域，对它是有期待的。但结果基本对不上号。

更尴尬的是，反过来拿着它找到的图片问"这是谁"，它也只能给出泛泛的描述，

无法准确说出人名

。

后来研究了才发现：

Marvis目前没有人脸生物识别比对的权限和能力。

这不是技术做不到，而是涉及隐私合规的边界问题——一个能自由操作你电脑的AI，如果再拥有精准的人脸识别能力，安全争议会指数级上升。所以还好，业内共有的问题不是问题。

不过"小马"还是给了一个小惊喜，就是它的"本地知识库"。在选图的时候发现，它会把我本地的图片和文档纳入一个整体的库里，形成一个全局图库。要知道，媒体人的桌面，一般都是这样的。

图片仅供参考，实际更乱

对于文档类的内容还好，但是图片类的信息真的是存进电脑几乎就再也找不到了。而这个本地知识库就可以支持用模糊语意去寻找固定内容了，提效不少。

在图片生成和人物识别这两个维度上，Marvis目前还不能替代专业工具。它的优势不在"创作视觉内容"，而在"帮你调用和管理视觉内容"

。

批量操作才是"系统级AI"的真正主场

文章写完后，进入最枯燥的环节：多平台同步。手里有一个Excel表格，里面存着微信公众号、知乎、头条号、微博等所有平台的发布链接。

以前这个流程是这样的：找到表格→ 打开 → 逐个复制链接 → 粘贴到浏览器 → 登录 → 发布。全程手动，至少折腾十几分钟。

这次让Marvis直接读取桌面上的表格文件，打开里面所有网址。原本以为会卡顿，甚至做好等三五分钟的心理准备。结果

不到一分钟

，眼看着它依次完成：读取桌面文件→ 解析表格 → 启动浏览器 → 逐个打开平台网址。浏览器里的标签页瞬间拉满，效率提升肉眼可见。

后面还让它整理了电脑里散落的旧稿件，统一梳理命名规则。这些"体力活"它都完成得干净利落。

创作间隙，随手让它"打开网易云，放首歌"，它也能秒响应。甚至最后，让它扫描了一遍电脑里可卸载的App和陈年图片。它不仅分析得很快，对卸载建议还说得头头是道；那些藏在磁盘深处、自己都忘了的老照片，也被它翻出来整整齐齐理了一遍。

看着老照片，听着“网抑云”，独属于某人的时刻，降临了。反正今天的活儿，Marvis也帮着干了不少，那么就进入今日Emo时刻吧。

Marvis的真正价值，在于把"重复性、流程化、跨应用"的脏活累活自动化。它不是替代你的大脑，而是替代你的手指。

为什么它总在"确认"？

在整个测试过程中，注意到Marvis有一个非常鲜明的交互特征：

频繁确认

。

删除文件前确认、修改设置前确认、执行可能影响系统的操作前确认……几乎每一步涉及"写操作"的环节，它都会停下来问："确定要这样做吗？"

这让人想到之前的一篇稿子：Gemini 3.5删了两万八千行代码后，给自己写了封表扬信。两件事放在一起看，反差极大。

Marvis的"过度确认"，

究竟是AI没有完全释放其便捷性

？还是

开发者刻意把最终决定权牢牢握在用户手中，划定一条"不越界"的安全线

？

值得思考的是：

在系统级权限面前，"保守"比"激进"更负责任。

一个能删你文件、改你设置、操作你应用的AI，如果太"果断"，风险是不可逆的。Marvis的多次确认，本质上是一种

权限敬畏

——它知道自己的能力边界，也知道你的数据边界。

当然，这也带来一个体验上的trade-off：有时候你会觉得"有点啰嗦"。如何在"安全"和"流畅"之间找到更好的平衡点，是Marvis下一步需要优化的方向。

它还不是"终极形态"，但方向对了

48小时体验下来，总体感受是：

Marvis目前更像一个"高级实习生"，

它不能替你思考选题、不能帮你写出爆款标题、不能生成惊艳的配图，但它能帮你把"找资料、整文件、开网页、定提醒、清内存"这些琐事扛起来。

它的优势非常明确：

系统级整合能力、跨应用调度能力、本地文件操作能力。

这些恰恰是传统云端AI助手做不到的。

它的短板也很清晰：

时间感知偶发幻觉、图片生成与识别能力弱、高频确认影响操作流畅度。

最后必须诚实地说：个人使用的时间还太短，很多功能（比如手机App跨屏操作、复杂工作流编排）完全没有深入测试。以上体验，仅限于一个自媒体人日常工作中真实接触到的场景。

如果你也厌倦了在十几个应用之间来回切换、被琐碎操作吃掉大量时间，Marvis值得一试。它未必能让你立刻拥有"6个AI牛马"，但至少，

马维斯（Marvis）实测：他给了我一些可以独处的时间

「操作系统层级」的AI助手

「装上就有6个AI牛马帮你干活」

当"明确要求"遇上"执行偏差"

当"明确要求"遇上"执行偏差"

满屏乱码

第一次遇到输出文件乱码的情况

写入指令里明明是明确要求了UTF-8的，执行环节却"漏"掉了这一步。

"理解指令"和"严格执行指令"之间，其实还隔着一道执行的鸿沟

系统级AI的第一次考验，不是"能不能做"，而是"能不能稳定、不出错地做"。

第一印象并不美好，但好在自己勘误能力还算ok。

AI的"时间感知"竟然会翻车？

AI的"时间感知"竟然会翻车？

第一幕：时间幻觉（9:40 → 设10:00闹钟）

明天10点

AI对"当前系统时间"的感知，在某些场景下会出现逻辑漂移。

仔细思考下这个逻辑漂移问题，有可能是agent调用了错误的工具导致抓取错误，也有可能是模型返回的具体时间有问题，短期看还好，如果长期使用，稳定性一定是生产力中的关键要点，基础信息的判断，Marvis确实还有待加强。

第二幕：正常发挥（10:30闹钟）

第三幕：保守策略（8:00闹钟）

弹出手动确认窗口，要求你在系统层面亲自确认

第四幕：进化自查（10:08闹钟）

自查

这四次闹钟测试，几乎浓缩了AI产品迭代的典型路径，从幻觉犯错，到保守兜底，再到自查修正。Marvis的学习和纠错速度，比想象中快。

图片生成与识别，仍是短板

图片生成与识别，仍是短板

质量确实有点拉胯，

人物识别

无法准确说出人名

Marvis目前没有人脸生物识别比对的权限和能力。

在图片生成和人物识别这两个维度上，Marvis目前还不能替代专业工具。它的优势不在"创作视觉内容"，而在"帮你调用和管理视觉内容"

批量操作才是"系统级AI"的真正主场

批量操作才是"系统级AI"的真正主场

不到一分钟

Marvis的真正价值，在于把"重复性、流程化、跨应用"的脏活累活自动化。它不是替代你的大脑，而是替代你的手指。

为什么它总在"确认"？

为什么它总在"确认"？

频繁确认

究竟是AI没有完全释放其便捷性

开发者刻意把最终决定权牢牢握在用户手中，划定一条"不越界"的安全线

在系统级权限面前，"保守"比"激进"更负责任。

权限敬畏

它还不是"终极形态"，但方向对了

它还不是"终极形态"，但方向对了

Marvis目前更像一个"高级实习生"，

系统级整合能力、跨应用调度能力、本地文件操作能力。

时间感知偶发幻觉、图片生成与识别能力弱、高频确认影响操作流畅度。

第一个愿意帮你干脏活累活的"数字助理"，已经坐在你的电脑里了。

相关阅读

相关下载