首页 > 教程攻略 > ai资讯 >MindDR 1.5 - 理想汽车推出的多智能体深度研究框架

MindDR 1.5 - 理想汽车推出的多智能体深度研究框架

来源：互联网时间：2026-06-17 15:15:11

MindDR 1.5是什么

在AI研究领域，追求性能往往意味着堆砌参数和算力，但理想汽车信息智能体团队最近推出的MindDR 1.5，却走了一条截然不同的路。这个多智能体深度研究框架，仅用大约300亿参数，就在权威的DeepResearch Bench评测中拿下了52.54的高分，达到了业界领先水平。它究竟是怎么做到的？

关键在于一套精巧的“分工协作”架构。MindDR 1.5将复杂的深度研究任务拆解，交由三个智能体各司其职：Planning负责规划任务，DeepSearch专攻深度搜索与验证，Report则整合信息撰写报告。这套架构配合一套高效的四阶段训练管线——从SFT冷启动，到针对搜索和报告环节的强化学习，最后进行偏好对齐——成功跳过了传统方法中昂贵的中期训练阶段。结果是，训练所需的token数量减少了71.4%，计算卡时降低了60%，真正实现了“低成本、高性能”的目标。目前，这项能力已经部署在“理想同学”在线产品中，服务于真实用户。

MindDR 1.5的主要功能

这套框架的能力并非单一，而是由一系列环环相扣的功能模块支撑起来的：

智能任务规划
：面对用户的复杂查询，Planning Agent能自动将其拆解成一系列清晰、独立的子任务，为后续深度探索铺平道路。
深度并行检索
：DeepSearch Agent是核心的“信息猎手”，它能执行多轮搜索、交叉验证并进行长程推理，确保信息的深度与准确性。
高质量报告生成
：Report Agent则扮演“分析师”角色，它能整合来自多源的证据，输出结构清晰、论证严谨的长篇报告。
记忆共享与追溯
：通过扩展思维链和工具记忆机制，实现跨智能体的信息无缝流转与每一步决策的源头追溯，保证了过程的透明可信。
多工具环境调用
：框架支持统一的工具接口，可以灵活调用网页搜索、数据库查询、浏览器操作乃至Python代码执行等多样化工具，适应复杂的研究环境。

MindDR 1.5的技术原理

光有功能描述还不够，要理解其高效背后的奥秘，还得深入技术内核。MindDR 1.5的领先，源于其在架构设计和训练方法上的双重创新。

首先，是它的

多智能体协作架构

。它将整个深度研究流程彻底解耦，规划、搜索、报告三个智能体分工明确，通过共享记忆模块来交换推理轨迹和工具记录。这种设计巧妙地避免了单一大模型处理长上下文时产生的负担，也防止了不同能力之间相互干扰。

其次，是那套精打细算的

四阶段训练管线

。这可不是简单的顺序训练，而是一个逐步强化、针对性优化的过程：

SFT 冷启动
：先打好基础，让模型学会正确使用工具、遵循指令格式并进行多轮推理。
Search-RL
：在真实工具环境中进行在线强化学习。奖励机制是动态调度的，从成功调用工具开始，逐步过渡到格式正确性、预测奖励模型评分，最终优化长链路的搜索决策效率，模拟了一种“顿悟式”的能力提升。
Report-RL
：专门优化报告生成质量。核心奖励基于RACE准则（全面性、洞察力、可读性、指令遵循），再结合引用准确性和格式规范性，确保产出的报告既深刻又好读。
偏好对齐
：最后一步是打磨细节，通过DPO和自指令微调，解决时态一致性、表格格式等影响用户体验的细微问题，让模型输出更贴合人类的真实偏好。

当然，巧妇难为无米之炊。

数据合成

策略同样关键。团队基于百度百科和英文维基百科构建知识图谱，通过子图采样、生成多跳问答、并加入条件混淆和质量过滤，合成出高质量的复杂推理训练数据。这些合成数据再与真实的用户查询混合，有效弥合了训练与实战之间的分布差距。

MindDR 1.5的关键信息和使用要求

对于关注技术落地和可用性的开发者与研究者，以下几个关键点值得注意：

开发团队
：由理想汽车的信息智能体团队完全自主研发并维护，有着鲜明的汽车科技公司背景。
开源状态
：技术报告和论文已在arXiv公开，但模型权重和产品接口目前暂未开源。
参数规模
：采用了约300亿参数的稠密模型与混合专家模型双路线探索，并在同规模的开源系统中展现出领先性能。
训练成本
：与初代版本相比，训练token减少超七成，训练卡时降低六成，效率提升非常显著。
产品形态
：已作为核心能力集成到“理想同学”产品中，直接面向车主提供深度研究服务，经历了真实场景的检验。
评测基准
：其能力经过了严格验证，评测覆盖了DeepResearch Bench、自建的MindDR Bench、BrowseComp、xbench-DS、WideSearch等多个深度搜索与报告生成评测体系。

MindDR 1.5的核心优势

综合来看，MindDR 1.5能在竞争中脱颖而出，主要依靠以下几项核心优势：

低成本高性能
：用30B级别的小模型，通过跳过中期训练和多阶段精细化训练，实现了业界领先的性能，大幅降低了训练和推理的门槛。
智能体分工明确
：将搜索与写作能力解耦到不同智能体，有效避免了端到端训练中常见的奖励稀疏和任务干扰问题，还支持子任务并行执行，提升效率。
动态递进奖励
：Search-RL阶段的动态奖励调度机制是一大亮点，它让模型的学习过程由浅入深，逐步从学会“动手”工具调用，进化到掌握“动脑”深层推理。
真实场景对齐
：基于500条真实用户查询构建专属评测集，评测维度直接挂钩内容质量和呈现格式，确保技术研发不脱离用户体验。
高效搜索决策
：在达到同等准确率的前提下，其工具调用次数和消耗的上下文token数均显著低于同规模竞品，做到了既准又省。

MindDR 1.5的项目地址

希望深入了解技术细节的读者，可以通过以下渠道获取官方信息：

HuggingFace模型库
：相关论文页面可在HuggingFace上找到。
arXiv技术论文
：详细的技术论文已发布在arXiv上，供学术界和工业界参考。

MindDR 1.5的同类竞品对比

为了更清晰地定位MindDR 1.5，我们将其与业界其他知名的深度研究系统进行一个简要对比：

对比维度	MindDR 1.5	Gemini 3.1 Pro	OpenAI Deep Research
开发方	理想汽车	Google	OpenAI
参数规模	~30B	未公开（大模型）	未公开（大模型）
架构设计	三智能体协作（规划/搜索/报告分离）	单/多智能体（未公开细节）	单智能体端到端
训练策略	四阶段管线（跳过 mid-training）	大规模持续预训练	端到端强化学习
DeepResearch Bench	52.54	52.17	46.45
BrowseComp-ZH	45.7	—	—
核心特点	小模型+多阶段 RL，成本极低	原生多模态，通用性强	闭源产品，体验成熟
开源程度	论文公开，模型未开源	闭源	闭源

从对比中不难看出，MindDR 1.5选择了一条差异化的技术路径：在参数规模上更加克制，通过精巧的架构和训练方法，在特定深度研究任务上实现了与庞大通用模型媲美甚至更优的性能，同时显著控制了成本。

MindDR 1.5的应用场景

这种高效的深度研究能力，能在哪些领域大显身手？其应用场景相当广泛：

汽车行业深度调研
：快速分析市场竞争格局、解读价格战背后的策略、梳理不同技术路线的优劣，为战略决策提供信息支撑。
学术科研辅助
：帮助研究人员自动检索相关文献，整合跨领域的多源证据，并生成引用规范的研究综述或背景报告，提升研究效率。
金融投资研究
：对目标上市公司、新兴行业趋势进行多轮信息验证、数据挖掘，输出结构化的投资分析报告，辅助判断。
产品决策支持
：基于海量的公开数据、市场报告及用户行为日志，生成具备可操作性的商业分析，为产品迭代和市场进入提供参考。
智能座舱问答
：作为“理想同学”的核心能力，为车主提供远超简单问答的深度知识服务，例如解答复杂的车辆技术原理、对比竞品配置等。

总而言之，MindDR 1.5代表了一种务实且高效的技术方向：不盲目追求参数规模，而是通过体系化的架构设计和训练优化，让中等规模的模型在垂直任务上发挥出顶尖水平。这对于推动AI技术在成本敏感的真实场景中落地，具有重要的借鉴意义。

MindDR 1.5 - 理想汽车推出的多智能体深度研究框架

MindDR 1.5是什么

MindDR 1.5的主要功能

智能任务规划

深度并行检索

高质量报告生成

记忆共享与追溯

多工具环境调用

MindDR 1.5的技术原理

多智能体协作架构

四阶段训练管线

SFT 冷启动

Search-RL

Report-RL

偏好对齐

数据合成

MindDR 1.5的关键信息和使用要求

开发团队

开源状态

参数规模

训练成本

产品形态

评测基准

MindDR 1.5的核心优势

低成本高性能

智能体分工明确

动态递进奖励

真实场景对齐

高效搜索决策

MindDR 1.5的项目地址

HuggingFace模型库

arXiv技术论文

MindDR 1.5的同类竞品对比

52.54

45.7

MindDR 1.5的应用场景

汽车行业深度调研

学术科研辅助

金融投资研究

产品决策支持

智能座舱问答

相关阅读

相关下载