首页 > 教程攻略 > ai资讯 >从一个简单评测看AI搜索走到头了吗

从一个简单评测看AI搜索走到头了吗

来源：互联网时间：2026-06-19 13:56:35

AI搜索技术最近几天的热度，简直像是被点燃了一样。DeepSeek R1+联网搜索功能一出，整个圈子都炸了。用过的人应该都能切身感受到，有了思维链加持之后，AI搜索的体验和以前完全不是一个量级。但伴随这股热潮而来的是一个很实际的问题：AI搜索的工程和模型优化，是不是已经走到头了？或者说，当它开始向OpenAI DeepResearch那种范式演进时，在“搜索和研究某个命题”这件事上，是不是真的已经能替代部分人类工作了？

带着这些疑问，我做了一个很小的评测。在说结果之前，得先交代清楚背景。

评测问题：2025年2月都有哪些大模型公司的新模型发布？

为什么挑这个问题？表面上看很简单对吧？但背后的门道其实很深。比如，什么样的公司才算是“大模型公司”？是全球范围的，还是只看某个领域？垂直领域的算不算？新模型指的是LLM，还是也包括Transformer范式下的多模态大模型，或者是文生图、文生视频这类采用DiT架构的模型？2025年2月这个时间跨度虽然很明确，但一个月内的新闻量实在太大了。在相对熟悉行业信息的前提下，通过比较优质的信息源整理了半个小时以上，才勉强在下面列出了一个包含11家公司、19个模型的清单。必须承认，这个列表只能代表基于自身行业认知的判断，挂一漏万是难免的。另外，整理完之后真忍不住感慨一句：真TM卷……除了几家头部大厂的明星模型，过去一个月里还有很多可能在新闻里一闪而过的名字，不信你看下表的第一列。

解释一下评测对象们

大致可以归为以下几类：

benchmark（老AI搜索）
：选了智谱的AI搜索功能。智谱虽然也发了推理模型（有印象吗？），但AI搜索用的还是不带推理的版本。这是R1出来之前AI搜索的经典范式：搜索词query改写/扩写 → 从搜索引擎中拿到部分搜索结果 → 进行相关性重排序（Rerank） → 排序靠前的结果作为input一并给到LLM → LLM结合搜索结果、预训练知识和用户原始query总结回答问题。
带长推理能力的AI搜索
：选了DeepSeek、腾讯元宝、Monica三家的网页版作为典型代表。工程上和老的AI搜索范式没有本质区别，只在最后一步，模型会结合网页信息先进行思考，再输出回答。由于模型都是满血版DeepSeek R1（姑且信之），上面三家的差别主要就来自搜索网页的部分。做得简单的话，可以少量query改写（甚至不改），再对接一个Bing/Bra ve/Ta vily之类的搜索API。大多数人不会重新做一套全网爬虫加索引，当然腾讯、百度这类有自己的搜索引擎产品的除外。召回网页之后需要抓取网页内容（也有一些搜索插件服务只提供摘要），并且基于用户的问题做相关性排序（有成熟的算法）。从这个过程中可以看出，采用哪家的爬虫或搜索API（也决定了能爬到哪些内容）、query改写的策略、搜索召回的数量、重排策略、最终吐给模型的内容量等等，都会影响一次AI搜索的结果。而由于DeepSeek R1的加入，模型在获得内容之后有了更多时间思考、比对、校验甚至反思吐给它的内容，从而优化了输出质量。
模型智能只能用在总结阶段吗？
当然不是。比如秘塔的研究模式下有一个“先想后搜”模式，会先用模型对用户query进行一定的分析，列出搜索提纲再去搜索内容，最后召回的结果再用R1总结一遍。关于这种“先想后搜”的模式，最近结合字节Coze上线了带function call（工具调用能力）的R1之后（原生的R1 function call能力比较弱），有一个简单的复现方法如下：运行时你会发现，在思维链中模型会出现一个“停顿点”，然后还是调用搜索插件分析搜索结果。此外，秘塔还有一点不同是除了通用搜索外，他们应该还做了不少垂域数据的索引，比如你能从中搜到大量的研究报告和论文，这是其他AI搜索目前做不到的。
还有一个“终极”形态
。最后说说OpenAI的DeepResearch。除了用到了最新的O3模型，DeepResearch和上述这些AI搜索最大的差别在于，它是一个端到端训练了搜索网页获取信息这个技能的Agent。这点在昨天DeepResearch主创的访谈中有所印证：也就是说，不同于“先搜后想”或“先想后搜再想”的AI搜索工程范式，DeepResearch采用的是“边想边搜”的模式——模型端到端地去学习人怎么结合一个命题去搜索网页、思考之后调整搜索词、再搜索、如此往复的行为（这种思路也是模型去规则化的一种趋势，比如智驾领域从感知-依赖规则的规划决策-行动，转变为端到端的视觉进-动作出）。具体到评测的问题上，DeepResearch的思考过程如下（OpenAI应该还是做了一定的简化）：说句题外话，这个例子也很好地说明了Agent这个概念除了规划、记忆和使用工具外，能对环境变化进行实时交互也是至关重要的。

评测结果

啰嗦了这么久，各种AI搜索/研究的模式都分析过了，看看结果到底如何？

备注：测试时间为2月28日中午，测试query相同，均为“2025年2月都有哪些大模型公司的新模型发布？”，所有产品都开了联网搜索能力，其他差异如下表所示：

先说结论：全线拉垮，没有任何一位“先进模式”的选手在成绩上超过作为benchmark的智谱“普通”AI搜索。
信源上：腾讯元宝凭借独有的微信公众号以及时效性（比如今天发布的GPT4.5）取得一定优势（但不明显）。其他家主要就是通过搜索获得的门户媒体信息。值得一提的反而是作为参照物的智谱，采用了不少知乎、雪球等信源。而秘塔特有的pdf研究报告信源，由于内容比较老旧，在这类高时效性问题上反而吃亏。
深度思考固然好，但前提是找对信息：对比DeepSeek和智谱的成绩，得出了这个结论。
DeepResearch的优势是基于用户问题扩展，比如能主动总结这些新发模型具体的技术细节、应用场景，或者性能对比等信息，但在这道更偏事实性的问题上，这种优势发挥不出来。
世界上还是存在大量“长尾”信息的。比如这里除了头部OpenAI、Anthropic、Google以及DeepSeek、通义以外，其他的模型公司似乎被AI搜索抛到了聚光灯以外（马斯克、字节：Are you OK？）。

从一个简单评测看AI搜索走到头了吗

评测问题：2025年2月都有哪些大模型公司的新模型发布？

解释一下评测对象们

benchmark（老AI搜索）

带长推理能力的AI搜索

模型智能只能用在总结阶段吗？

还有一个“终极”形态

评测结果

先说结论：全线拉垮，没有任何一位“先进模式”的选手在成绩上超过作为benchmark的智谱“普通”AI搜索。

相关阅读

相关下载