MindDR 1.5 - 理想汽车推出的多智能体深度研究框架
MindDR 1.5是什么
在AI研究领域,追求性能往往意味着堆砌参数和算力,但理想汽车信息智能体团队最近推出的MindDR 1.5,却走了一条截然不同的路。这个多智能体深度研究框架,仅用大约300亿参数,就在权威的DeepResearch Bench评测中拿下了52.54的高分,达到了业界领先水平。它究竟是怎么做到的?
关键在于一套精巧的“分工协作”架构。MindDR 1.5将复杂的深度研究任务拆解,交由三个智能体各司其职:Planning负责规划任务,DeepSearch专攻深度搜索与验证,Report则整合信息撰写报告。这套架构配合一套高效的四阶段训练管线——从SFT冷启动,到针对搜索和报告环节的强化学习,最后进行偏好对齐——成功跳过了传统方法中昂贵的中期训练阶段。结果是,训练所需的token数量减少了71.4%,计算卡时降低了60%,真正实现了“低成本、高性能”的目标。目前,这项能力已经部署在“理想同学”在线产品中,服务于真实用户。
MindDR 1.5的主要功能
这套框架的能力并非单一,而是由一系列环环相扣的功能模块支撑起来的:
- :面对用户的复杂查询,Planning Agent能自动将其拆解成一系列清晰、独立的子任务,为后续深度探索铺平道路。
智能任务规划
- :DeepSearch Agent是核心的“信息猎手”,它能执行多轮搜索、交叉验证并进行长程推理,确保信息的深度与准确性。
深度并行检索
- :Report Agent则扮演“分析师”角色,它能整合来自多源的证据,输出结构清晰、论证严谨的长篇报告。
高质量报告生成
- :通过扩展思维链和工具记忆机制,实现跨智能体的信息无缝流转与每一步决策的源头追溯,保证了过程的透明可信。
记忆共享与追溯
- :框架支持统一的工具接口,可以灵活调用网页搜索、数据库查询、浏览器操作乃至Python代码执行等多样化工具,适应复杂的研究环境。
多工具环境调用
MindDR 1.5的技术原理
光有功能描述还不够,要理解其高效背后的奥秘,还得深入技术内核。MindDR 1.5的领先,源于其在架构设计和训练方法上的双重创新。
首先,是它的
多智能体协作架构
其次,是那套精打细算的
四阶段训练管线
- :先打好基础,让模型学会正确使用工具、遵循指令格式并进行多轮推理。
SFT 冷启动
- :在真实工具环境中进行在线强化学习。奖励机制是动态调度的,从成功调用工具开始,逐步过渡到格式正确性、预测奖励模型评分,最终优化长链路的搜索决策效率,模拟了一种“顿悟式”的能力提升。
Search-RL
- :专门优化报告生成质量。核心奖励基于RACE准则(全面性、洞察力、可读性、指令遵循),再结合引用准确性和格式规范性,确保产出的报告既深刻又好读。
Report-RL
- :最后一步是打磨细节,通过DPO和自指令微调,解决时态一致性、表格格式等影响用户体验的细微问题,让模型输出更贴合人类的真实偏好。
偏好对齐
当然,巧妇难为无米之炊。
数据合成
MindDR 1.5的关键信息和使用要求
对于关注技术落地和可用性的开发者与研究者,以下几个关键点值得注意:
- :由理想汽车的信息智能体团队完全自主研发并维护,有着鲜明的汽车科技公司背景。
开发团队
- :技术报告和论文已在arXiv公开,但模型权重和产品接口目前暂未开源。
开源状态
- :采用了约300亿参数的稠密模型与混合专家模型双路线探索,并在同规模的开源系统中展现出领先性能。
参数规模
- :与初代版本相比,训练token减少超七成,训练卡时降低六成,效率提升非常显著。
训练成本
- :已作为核心能力集成到“理想同学”产品中,直接面向车主提供深度研究服务,经历了真实场景的检验。
产品形态
- :其能力经过了严格验证,评测覆盖了DeepResearch Bench、自建的MindDR Bench、BrowseComp、xbench-DS、WideSearch等多个深度搜索与报告生成评测体系。
评测基准
MindDR 1.5的核心优势
综合来看,MindDR 1.5能在竞争中脱颖而出,主要依靠以下几项核心优势:
- :用30B级别的小模型,通过跳过中期训练和多阶段精细化训练,实现了业界领先的性能,大幅降低了训练和推理的门槛。
低成本高性能
- :将搜索与写作能力解耦到不同智能体,有效避免了端到端训练中常见的奖励稀疏和任务干扰问题,还支持子任务并行执行,提升效率。
智能体分工明确
- :Search-RL阶段的动态奖励调度机制是一大亮点,它让模型的学习过程由浅入深,逐步从学会“动手”工具调用,进化到掌握“动脑”深层推理。
动态递进奖励
- :基于500条真实用户查询构建专属评测集,评测维度直接挂钩内容质量和呈现格式,确保技术研发不脱离用户体验。
真实场景对齐
- :在达到同等准确率的前提下,其工具调用次数和消耗的上下文token数均显著低于同规模竞品,做到了既准又省。
高效搜索决策
MindDR 1.5的项目地址
希望深入了解技术细节的读者,可以通过以下渠道获取官方信息:
- :相关论文页面可在HuggingFace上找到。
HuggingFace模型库
- :详细的技术论文已发布在arXiv上,供学术界和工业界参考。
arXiv技术论文
MindDR 1.5的同类竞品对比
为了更清晰地定位MindDR 1.5,我们将其与业界其他知名的深度研究系统进行一个简要对比:
| 对比维度 | MindDR 1.5 | Gemini 3.1 Pro | OpenAI Deep Research |
|---|---|---|---|
| 开发方 | 理想汽车 | OpenAI | |
| 参数规模 | ~30B | 未公开(大模型) | 未公开(大模型) |
| 架构设计 | 三智能体协作(规划/搜索/报告分离) | 单/多智能体(未公开细节) | 单智能体端到端 |
| 训练策略 | 四阶段管线(跳过 mid-training) | 大规模持续预训练 | 端到端强化学习 |
| DeepResearch Bench | 52.54 |
52.17 | 46.45 |
| BrowseComp-ZH | 45.7 |
— | — |
| 核心特点 | 小模型+多阶段 RL,成本极低 | 原生多模态,通用性强 | 闭源产品,体验成熟 |
| 开源程度 | 论文公开,模型未开源 | 闭源 | 闭源 |
从对比中不难看出,MindDR 1.5选择了一条差异化的技术路径:在参数规模上更加克制,通过精巧的架构和训练方法,在特定深度研究任务上实现了与庞大通用模型媲美甚至更优的性能,同时显著控制了成本。
MindDR 1.5的应用场景
这种高效的深度研究能力,能在哪些领域大显身手?其应用场景相当广泛:
- :快速分析市场竞争格局、解读价格战背后的策略、梳理不同技术路线的优劣,为战略决策提供信息支撑。
汽车行业深度调研
- :帮助研究人员自动检索相关文献,整合跨领域的多源证据,并生成引用规范的研究综述或背景报告,提升研究效率。
学术科研辅助
- :对目标上市公司、新兴行业趋势进行多轮信息验证、数据挖掘,输出结构化的投资分析报告,辅助判断。
金融投资研究
- :基于海量的公开数据、市场报告及用户行为日志,生成具备可操作性的商业分析,为产品迭代和市场进入提供参考。
产品决策支持
- :作为“理想同学”的核心能力,为车主提供远超简单问答的深度知识服务,例如解答复杂的车辆技术原理、对比竞品配置等。
智能座舱问答
总而言之,MindDR 1.5代表了一种务实且高效的技术方向:不盲目追求参数规模,而是通过体系化的架构设计和训练优化,让中等规模的模型在垂直任务上发挥出顶尖水平。这对于推动AI技术在成本敏感的真实场景中落地,具有重要的借鉴意义。