首页 > 教程攻略 > ai资讯 >MindDR 1.5 - 理想汽车推出的多智能体深度研究框架

MindDR 1.5 - 理想汽车推出的多智能体深度研究框架

来源:互联网 时间:2026-06-17 15:15:11

MindDR 1.5是什么

在AI研究领域,追求性能往往意味着堆砌参数和算力,但理想汽车信息智能体团队最近推出的MindDR 1.5,却走了一条截然不同的路。这个多智能体深度研究框架,仅用大约300亿参数,就在权威的DeepResearch Bench评测中拿下了52.54的高分,达到了业界领先水平。它究竟是怎么做到的?

关键在于一套精巧的“分工协作”架构。MindDR 1.5将复杂的深度研究任务拆解,交由三个智能体各司其职:Planning负责规划任务,DeepSearch专攻深度搜索与验证,Report则整合信息撰写报告。这套架构配合一套高效的四阶段训练管线——从SFT冷启动,到针对搜索和报告环节的强化学习,最后进行偏好对齐——成功跳过了传统方法中昂贵的中期训练阶段。结果是,训练所需的token数量减少了71.4%,计算卡时降低了60%,真正实现了“低成本、高性能”的目标。目前,这项能力已经部署在“理想同学”在线产品中,服务于真实用户。

MindDR 1.5的主要功能

这套框架的能力并非单一,而是由一系列环环相扣的功能模块支撑起来的:

  • 智能任务规划

    :面对用户的复杂查询,Planning Agent能自动将其拆解成一系列清晰、独立的子任务,为后续深度探索铺平道路。
  • 深度并行检索

    :DeepSearch Agent是核心的“信息猎手”,它能执行多轮搜索、交叉验证并进行长程推理,确保信息的深度与准确性。
  • 高质量报告生成

    :Report Agent则扮演“分析师”角色,它能整合来自多源的证据,输出结构清晰、论证严谨的长篇报告。
  • 记忆共享与追溯

    :通过扩展思维链和工具记忆机制,实现跨智能体的信息无缝流转与每一步决策的源头追溯,保证了过程的透明可信。
  • 多工具环境调用

    :框架支持统一的工具接口,可以灵活调用网页搜索、数据库查询、浏览器操作乃至Python代码执行等多样化工具,适应复杂的研究环境。

MindDR 1.5的技术原理

光有功能描述还不够,要理解其高效背后的奥秘,还得深入技术内核。MindDR 1.5的领先,源于其在架构设计和训练方法上的双重创新。

首先,是它的

多智能体协作架构

。它将整个深度研究流程彻底解耦,规划、搜索、报告三个智能体分工明确,通过共享记忆模块来交换推理轨迹和工具记录。这种设计巧妙地避免了单一大模型处理长上下文时产生的负担,也防止了不同能力之间相互干扰。

其次,是那套精打细算的

四阶段训练管线

。这可不是简单的顺序训练,而是一个逐步强化、针对性优化的过程:

  • SFT 冷启动

    :先打好基础,让模型学会正确使用工具、遵循指令格式并进行多轮推理。
  • Search-RL

    :在真实工具环境中进行在线强化学习。奖励机制是动态调度的,从成功调用工具开始,逐步过渡到格式正确性、预测奖励模型评分,最终优化长链路的搜索决策效率,模拟了一种“顿悟式”的能力提升。
  • Report-RL

    :专门优化报告生成质量。核心奖励基于RACE准则(全面性、洞察力、可读性、指令遵循),再结合引用准确性和格式规范性,确保产出的报告既深刻又好读。
  • 偏好对齐

    :最后一步是打磨细节,通过DPO和自指令微调,解决时态一致性、表格格式等影响用户体验的细微问题,让模型输出更贴合人类的真实偏好。

当然,巧妇难为无米之炊。

数据合成

策略同样关键。团队基于百度百科和英文维基百科构建知识图谱,通过子图采样、生成多跳问答、并加入条件混淆和质量过滤,合成出高质量的复杂推理训练数据。这些合成数据再与真实的用户查询混合,有效弥合了训练与实战之间的分布差距。

MindDR 1.5的关键信息和使用要求

对于关注技术落地和可用性的开发者与研究者,以下几个关键点值得注意:

  • 开发团队

    :由理想汽车的信息智能体团队完全自主研发并维护,有着鲜明的汽车科技公司背景。
  • 开源状态

    :技术报告和论文已在arXiv公开,但模型权重和产品接口目前暂未开源。
  • 参数规模

    :采用了约300亿参数的稠密模型与混合专家模型双路线探索,并在同规模的开源系统中展现出领先性能。
  • 训练成本

    :与初代版本相比,训练token减少超七成,训练卡时降低六成,效率提升非常显著。
  • 产品形态

    :已作为核心能力集成到“理想同学”产品中,直接面向车主提供深度研究服务,经历了真实场景的检验。
  • 评测基准

    :其能力经过了严格验证,评测覆盖了DeepResearch Bench、自建的MindDR Bench、BrowseComp、xbench-DS、WideSearch等多个深度搜索与报告生成评测体系。

MindDR 1.5的核心优势

综合来看,MindDR 1.5能在竞争中脱颖而出,主要依靠以下几项核心优势:

  • 低成本高性能

    :用30B级别的小模型,通过跳过中期训练和多阶段精细化训练,实现了业界领先的性能,大幅降低了训练和推理的门槛。
  • 智能体分工明确

    :将搜索与写作能力解耦到不同智能体,有效避免了端到端训练中常见的奖励稀疏和任务干扰问题,还支持子任务并行执行,提升效率。
  • 动态递进奖励

    :Search-RL阶段的动态奖励调度机制是一大亮点,它让模型的学习过程由浅入深,逐步从学会“动手”工具调用,进化到掌握“动脑”深层推理。
  • 真实场景对齐

    :基于500条真实用户查询构建专属评测集,评测维度直接挂钩内容质量和呈现格式,确保技术研发不脱离用户体验。
  • 高效搜索决策

    :在达到同等准确率的前提下,其工具调用次数和消耗的上下文token数均显著低于同规模竞品,做到了既准又省。

MindDR 1.5的项目地址

希望深入了解技术细节的读者,可以通过以下渠道获取官方信息:

  • HuggingFace模型库

    :相关论文页面可在HuggingFace上找到。
  • arXiv技术论文

    :详细的技术论文已发布在arXiv上,供学术界和工业界参考。

MindDR 1.5的同类竞品对比

为了更清晰地定位MindDR 1.5,我们将其与业界其他知名的深度研究系统进行一个简要对比:

对比维度 MindDR 1.5 Gemini 3.1 Pro OpenAI Deep Research
开发方 理想汽车 Google OpenAI
参数规模 ~30B 未公开(大模型) 未公开(大模型)
架构设计 三智能体协作(规划/搜索/报告分离) 单/多智能体(未公开细节) 单智能体端到端
训练策略 四阶段管线(跳过 mid-training) 大规模持续预训练 端到端强化学习
DeepResearch Bench

52.54

52.17 46.45
BrowseComp-ZH

45.7

核心特点 小模型+多阶段 RL,成本极低 原生多模态,通用性强 闭源产品,体验成熟
开源程度 论文公开,模型未开源 闭源 闭源

从对比中不难看出,MindDR 1.5选择了一条差异化的技术路径:在参数规模上更加克制,通过精巧的架构和训练方法,在特定深度研究任务上实现了与庞大通用模型媲美甚至更优的性能,同时显著控制了成本。

MindDR 1.5的应用场景

这种高效的深度研究能力,能在哪些领域大显身手?其应用场景相当广泛:

  • 汽车行业深度调研

    :快速分析市场竞争格局、解读价格战背后的策略、梳理不同技术路线的优劣,为战略决策提供信息支撑。
  • 学术科研辅助

    :帮助研究人员自动检索相关文献,整合跨领域的多源证据,并生成引用规范的研究综述或背景报告,提升研究效率。
  • 金融投资研究

    :对目标上市公司、新兴行业趋势进行多轮信息验证、数据挖掘,输出结构化的投资分析报告,辅助判断。
  • 产品决策支持

    :基于海量的公开数据、市场报告及用户行为日志,生成具备可操作性的商业分析,为产品迭代和市场进入提供参考。
  • 智能座舱问答

    :作为“理想同学”的核心能力,为车主提供远超简单问答的深度知识服务,例如解答复杂的车辆技术原理、对比竞品配置等。

总而言之,MindDR 1.5代表了一种务实且高效的技术方向:不盲目追求参数规模,而是通过体系化的架构设计和训练优化,让中等规模的模型在垂直任务上发挥出顶尖水平。这对于推动AI技术在成本敏感的真实场景中落地,具有重要的借鉴意义。