全世界在等的Gemini 3终于来了,强到断崖领先,连马斯克OpenAI都夸好
谷歌最强推理模型Gemini 3,终于在今日凌晨正式亮相。一个模型打包了原生多模态、推理和Agent三大能力,这在业界并不多见。官方宣称,这是目前全球最先进的多模态理解模型,也是谷歌最强大的Agent编程和氛围编程模型——能呈现更丰富的可视化效果、更深度的交互体验,且完全构建于最先进的推理技术之上。
该模型基于谷歌自研TPU训练,支持100万token的上下文窗口,专为Agent、高级编程、长上下文、多模态理解、算法开发等场景设计。发布当天,Gemini 3几乎横扫所有主流评测集,以1501 Elo得分登顶LMArena大模型竞技场——这个成绩,直接把前代模型和竞品甩在了身后。

有意思的是,OpenAI的Sam Altman和xAI的马斯克都第一时间发来了"贺电"。Altman发推评价"Gemini 3看起来很不错",谷歌CEO皮查伊用一个表情包回复;马斯克则转发了DeepMind CEO哈萨比斯的推文说"干得不错"。


从今天起,Gemini 3将在以下平台全面部署:Gemini应用所有用户(含AI模式中的Google AI Pro和Ultra订阅用户)、Gemini API开发者、全新Agent开发平台Antigra vity的开发者、Gemini CLI开发者,以及Vertex AI平台与Gemini企业版的企业用户。未来几周,谷歌还将向Google AI Ultra订阅者开放Gemini 3的深度思考模式,目前该功能仍在进行安全评估。对于这次发布,皮查伊认为,这一模型可以让用户的任何想法变为现实。
01.
分分钟造出交互游戏、App
还能帮你学新知识
Gemini 3的能力到底有多强?看看它几分钟内能做什么就明白了。
比如,它可以编写托卡马克装置中等离子体流的可视化代码,并创作一首捕捉核聚变物理原理的诗歌——理工科和文艺范儿同时拿捏。

想学习家族传统烹饪?Gemini 3能解读并翻译不同语言的手写食谱,直接生成一本可共享的家庭食谱。

想深入学习一个新课题?输入学术论文、长视频讲座或教程,它能自动生成交互式抽认卡、可视化图表或其他格式的代码,帮你高效掌握这些内容。

匹克球爱好者也有福利:上传你的比赛视频,Gemini 3可以分析找出技术短板,并生成针对性的训练计划。

在AI搜索模式下,Gemini 3能借助生成式用户界面,学习像RNA聚合酶作用机制这类复杂知识点。值得一提的是,这是谷歌首次在模型发布首日,就将新模型直接集成至AI搜索功能中。

不仅如此,Gemini 3还能编写拥有丰富可视化界面和互动性的复古3D飞船游戏,通过代码构建、解构和重新创作精细的3D体素艺术,让用户的想象变为现实。

它甚至能使用着色器创建可玩的科幻世界,还能生成更具实用性、元素丰富的互动性网页和App。

02.
屠榜评测集
刷新大模型能力天花板
再来看看硬核的基准测试结果。谷歌博客透露,Gemini 3 Pro在推理、多模态能力、Agent工具使用、多语言性能和长上下文等一系列基准测试中全面评估,主要AI基准测试成绩均大幅优于前代Gemini 2.5 Pro,并以1501 Elo得分位列LMArena大模型竞技场第一。

该模型展现出博士级推理能力:在"人类终极测试"(不使用任何工具,得分37.5%)和GPQA钻石级测试中均斩获最高分,在MathArena Apex测试中取得23.4%的最新顶尖成绩。多模态方面,MMMU-Pro得分81%,Video-MMMU得分87.6%,SimpleQA Verify也获得了最高的72.1%。这意味着Gemini 3 Pro能够以高度可靠性解决涵盖科学、数学等广泛主题的复杂问题。
深度思考模式的提升更为显著:Gemini 3 Deep Think在"人类终极测试"中达到41.0%(未使用工具),在GPQA Diamond上拿到93.8%,在ARC-AGI-2(代码执行,ARC奖项认证)上取得45.1%——这些数字全面超越谷歌自家前代模型,以及OpenAI、Anthropic的竞品。

编程能力方面,Gemini 3是谷歌迄今为止构建过的最佳氛围编程和Agent编程模型。它以1487 Elo得分登顶WebDev竞技场排行榜;在Terminal-Bench 2.0测试模型工具使用能力上,得分54.2%;在衡量编程Agent能力的SWE-bench Verified上,表现远超2.5 Pro。开发者可以在Google AI Studio、Vertex AI、Gemini CLI以及全新的Agent开发平台Google Antigra vity中使用它,还支持Cursor、GitHub、JetBrains、Manus、Replit等第三方平台。
自Gemini 2以来,谷歌在Agent方面已经取得不少进展,这次Gemini 3还登顶了Vending-Bench 2排行榜。该基准测试通过模拟自动售货机业务运营来考核模型的长期规划能力:结果显示,Gemini 3 Pro在一整年的模拟运营中,始终保持稳定的工具使用和决策连贯性,既未偏离任务目标,又实现了更高收益。

这意味着,Gemini 3能帮用户完成日常生活中的实际事务——比如预约本地服务,或者整理收件箱。

03.
全新Agent开发平台亮相
实现端到端软件开发自动化
今天谷歌还发布了全新的Agent开发平台:Google Antigra vity。借助Gemini 3的高级推理、工具使用及Agent编程能力,Antigra vity将AI辅助功能从开发者工具包里的一个普通工具,转变为积极主动的合作伙伴。
尽管核心仍是AI集成开发环境(AI IDE),但Antigra vity中的Agent已升级至专属界面,可以直接访问编辑器、终端和浏览器。这些Agent能够自主规划并同步执行复杂的端到端软件任务,同时对自身代码进行验证。除了Gemini 3 Pro,Antigra vity还将结合最新的Gemini 2.5 Computer Use模型,以及图像编辑模型Nano Banana。
一个直观的例子:借助Gemini 3,Antigra vity为航班追踪应用打造了端到端的Agent工作流。该Agent能够自主规划、编写应用代码,并通过基于浏览器的计算机操作来验证其执行效果。

最后,谷歌强调,Gemini 3是其迄今为止最安全的模型,经历了谷歌AI模型中最全面的安全评估。测评结果显示,其谄媚行为减少,对即时注射的抵抗力增强,对网络攻击滥用的防护也得到提升。
回顾时间线:从2023年12月Gemini 1发布至今已近两年。Gemini 1在原生多模态和长上下文窗口上实现了突破,扩展了可处理信息的种类和量级;Gemini 2帮助用户处理更复杂的任务和想法,使2.5 Pro版本在LMArena中领先超过六个月。如今,谷歌基于Gemini模型的搜索功能AI Overviews月活用户达20亿,Gemini应用月活用户超6.5亿,超过70%的云端客户使用谷歌AI功能,1300万开发者用其生成模型搭建了作品。
04.
结语:免费开放+性能飙升!
Gemini 3搅动大模型竞争格局
相比前几代,Gemini 3的性能提升是质的飞跃。它能感知用户提示词中的细微线索和复杂问题,理解请求的背景和背后意图,让用户用更少的提示就能获得所需信息。谷歌在博客中提到,接下来的新篇章中,他们将继续突破智能、Agent和个性化的前沿,让AI真正惠及所有人。
随着Gemini 3正式亮相,加之谷歌此次直接免费开放使用权限,一场围绕大模型的新一轮行业竞争已经全面打响。压力,现在来到了同行这边。