首页 > 教程攻略 > ai资讯 >从一个简单评测看AI搜索走到头了吗

从一个简单评测看AI搜索走到头了吗

来源:互联网 时间:2026-06-19 13:56:35

AI搜索技术最近几天的热度,简直像是被点燃了一样。DeepSeek R1+联网搜索功能一出,整个圈子都炸了。用过的人应该都能切身感受到,有了思维链加持之后,AI搜索的体验和以前完全不是一个量级。但伴随这股热潮而来的是一个很实际的问题:AI搜索的工程和模型优化,是不是已经走到头了?或者说,当它开始向OpenAI DeepResearch那种范式演进时,在“搜索和研究某个命题”这件事上,是不是真的已经能替代部分人类工作了?

带着这些疑问,我做了一个很小的评测。在说结果之前,得先交代清楚背景。

评测问题:2025年2月都有哪些大模型公司的新模型发布?

为什么挑这个问题?表面上看很简单对吧?但背后的门道其实很深。比如,什么样的公司才算是“大模型公司”?是全球范围的,还是只看某个领域?垂直领域的算不算?新模型指的是LLM,还是也包括Transformer范式下的多模态大模型,或者是文生图、文生视频这类采用DiT架构的模型?2025年2月这个时间跨度虽然很明确,但一个月内的新闻量实在太大了。在相对熟悉行业信息的前提下,通过比较优质的信息源整理了半个小时以上,才勉强在下面列出了一个包含11家公司、19个模型的清单。必须承认,这个列表只能代表基于自身行业认知的判断,挂一漏万是难免的。另外,整理完之后真忍不住感慨一句:真TM卷……除了几家头部大厂的明星模型,过去一个月里还有很多可能在新闻里一闪而过的名字,不信你看下表的第一列。

解释一下评测对象们

大致可以归为以下几类:

  • benchmark(老AI搜索)

    :选了智谱的AI搜索功能。智谱虽然也发了推理模型(有印象吗?),但AI搜索用的还是不带推理的版本。这是R1出来之前AI搜索的经典范式:搜索词query改写/扩写 → 从搜索引擎中拿到部分搜索结果 → 进行相关性重排序(Rerank) → 排序靠前的结果作为input一并给到LLM → LLM结合搜索结果、预训练知识和用户原始query总结回答问题。
  • 带长推理能力的AI搜索

    :选了DeepSeek、腾讯元宝、Monica三家的网页版作为典型代表。工程上和老的AI搜索范式没有本质区别,只在最后一步,模型会结合网页信息先进行思考,再输出回答。由于模型都是满血版DeepSeek R1(姑且信之),上面三家的差别主要就来自搜索网页的部分。做得简单的话,可以少量query改写(甚至不改),再对接一个Bing/Bra ve/Ta vily之类的搜索API。大多数人不会重新做一套全网爬虫加索引,当然腾讯、百度这类有自己的搜索引擎产品的除外。召回网页之后需要抓取网页内容(也有一些搜索插件服务只提供摘要),并且基于用户的问题做相关性排序(有成熟的算法)。从这个过程中可以看出,采用哪家的爬虫或搜索API(也决定了能爬到哪些内容)、query改写的策略、搜索召回的数量、重排策略、最终吐给模型的内容量等等,都会影响一次AI搜索的结果。而由于DeepSeek R1的加入,模型在获得内容之后有了更多时间思考、比对、校验甚至反思吐给它的内容,从而优化了输出质量。
  • 模型智能只能用在总结阶段吗?

    当然不是。比如秘塔的研究模式下有一个“先想后搜”模式,会先用模型对用户query进行一定的分析,列出搜索提纲再去搜索内容,最后召回的结果再用R1总结一遍。关于这种“先想后搜”的模式,最近结合字节Coze上线了带function call(工具调用能力)的R1之后(原生的R1 function call能力比较弱),有一个简单的复现方法如下:运行时你会发现,在思维链中模型会出现一个“停顿点”,然后还是调用搜索插件分析搜索结果。此外,秘塔还有一点不同是除了通用搜索外,他们应该还做了不少垂域数据的索引,比如你能从中搜到大量的研究报告和论文,这是其他AI搜索目前做不到的。
  • 还有一个“终极”形态

    。最后说说OpenAI的DeepResearch。除了用到了最新的O3模型,DeepResearch和上述这些AI搜索最大的差别在于,它是一个端到端训练了搜索网页获取信息这个技能的Agent。这点在昨天DeepResearch主创的访谈中有所印证:也就是说,不同于“先搜后想”或“先想后搜再想”的AI搜索工程范式,DeepResearch采用的是“边想边搜”的模式——模型端到端地去学习人怎么结合一个命题去搜索网页、思考之后调整搜索词、再搜索、如此往复的行为(这种思路也是模型去规则化的一种趋势,比如智驾领域从感知-依赖规则的规划决策-行动,转变为端到端的视觉进-动作出)。具体到评测的问题上,DeepResearch的思考过程如下(OpenAI应该还是做了一定的简化):说句题外话,这个例子也很好地说明了Agent这个概念除了规划、记忆和使用工具外,能对环境变化进行实时交互也是至关重要的。

评测结果

啰嗦了这么久,各种AI搜索/研究的模式都分析过了,看看结果到底如何?

备注:测试时间为2月28日中午,测试query相同,均为“2025年2月都有哪些大模型公司的新模型发布?”,所有产品都开了联网搜索能力,其他差异如下表所示:

  • 先说结论:全线拉垮,没有任何一位“先进模式”的选手在成绩上超过作为benchmark的智谱“普通”AI搜索。

  • 信源上:腾讯元宝凭借独有的微信公众号以及时效性(比如今天发布的GPT4.5)取得一定优势(但不明显)。其他家主要就是通过搜索获得的门户媒体信息。值得一提的反而是作为参照物的智谱,采用了不少知乎、雪球等信源。而秘塔特有的pdf研究报告信源,由于内容比较老旧,在这类高时效性问题上反而吃亏。
  • 深度思考固然好,但前提是找对信息:对比DeepSeek和智谱的成绩,得出了这个结论。
  • DeepResearch的优势是基于用户问题扩展,比如能主动总结这些新发模型具体的技术细节、应用场景,或者性能对比等信息,但在这道更偏事实性的问题上,这种优势发挥不出来。
  • 世界上还是存在大量“长尾”信息的。比如这里除了头部OpenAI、Anthropic、Google以及DeepSeek、通义以外,其他的模型公司似乎被AI搜索抛到了聚光灯以外(马斯克、字节:Are you OK?)。

相关下载