首页 > 教程攻略 > ai资讯 >​打破多模型切换壁垒!谷歌将“电脑操作”原生塞进 Gemini 3.5 Flash

​打破多模型切换壁垒!谷歌将“电脑操作”原生塞进 Gemini 3.5 Flash

来源:互联网 时间:2026-06-30 07:56:20

谷歌 DeepMind 团队最近放了一个大招:把原生的桌面级计算机操控能力直接塞进了 Gemini 3.5 Flash 模型里。这意味着,开发者现在只需要一个模型,就能搞定跨平台的视觉理解和交互,让 AI 智能体在浏览器、手机甚至电脑桌面系统里自己看界面、自己操作,彻底告别了过去那种“多个模型来回切、上下文还得手动同步”的苦日子。

以前要实现类似功能,一般得单独搞一个计算机控制模型,开发者得在不同模型之间反复切换,还得自己维护上下文状态,既麻烦又容易出错。现在原生融合之后,AI 在处理跨设备、长周期的任务时,再也不用依赖外部协调机制了——上下文全程留在模型内部,开发复杂度和集成成本都降了一大截。

上下文断裂成历史,“端到端连贯”成新基准

研究团队点出了一个关键问题:制约 AI 智能体稳定运行的,根本不是单个工具的能力上限,而是多模型协作时不可避免的上下文衰减和信息断层。就好比你把一堆文件放在不同的办公室里,跑起来总得来回串门,时间一长肯定丢三落四。现在好了,谷歌把网页搜索、地图服务和本地桌面操作统一到了同一个模型架构里,所有子任务都共享一个语义空间,上下文无缝流转——这就相当于把原本分散的办公楼群改造成了一栋内部通道贯通的大厦,彻底绕开了跨楼调度带来的延迟、误传和权限错配。

这种“全栈式工具内聚”的范式转变,从架构层面重构了能力边界,有望系统性优化智能体的任务可靠性和端到端响应效率。说白了,以后复杂流程的成功率和鲁棒性都会上一个台阶。

聚焦三大高价值场景,构建纵深安全防护体系

这个原生计算机操作能力最先会落地三个典型场景:一是需要连续跑几小时甚至几天不间断的自动化流程,比如数据归档、报表生成;二是面向 UI 一致性的长期回归测试和兼容性验证;三是涉及跨软件协同的知识密集型办公任务,比如资料整理、会议纪要生成与分发。这些场景都对上下文持久性和操作连贯性要求极高,正好对上了新技术的性子。

安全方面也没落下。谷歌部署了一套多层次防御机制:包括面向真实操作系统环境的对抗样本训练、企业级敏感操作实时拦截策略,以及针对间接提示注入攻击的行为识别与阻断模块。面对开放、动态而且难以预测的真实计算环境,这套组合防护方案试图给企业用户画出一个既功能强大又可控可信的执行边界。

​打破多模型切换壁垒!谷歌将“电脑操作”原生塞进 Gemini 3.5 Flash