PlanningBench - 腾讯混元等开源的大模型规划能力评测框架
来源:互联网
时间:2026-06-06 14:27:00
PlanningBench是什么
先说一下读完这个框架的第一感受:它抓住了目前大模型能力评测的一个核心痛点——很多模型回答看起来“头头是道”,但真的拿去执行,就露馅了。PlanningBench 是腾讯混元团队联合中国人民大学高瓴人工智能学院等机构推出的开源框架,专注解决大语言模型的规划能力评测与训练问题。这个框架从真实场景出发,构建了一套覆盖六大类、30余种规划任务的可验证数据生成体系。它的核心逻辑是通过约束驱动的闭环合成流程,让模型的规划结果从“看起来合理”走向“真的可执行”。
PlanningBench的主要功能
- :涵盖日程排布、资源分配、人力排班、路径调度、生产运营、应急服务六大类,共计30余种具体规划任务。
真实场景覆盖
- :将规划难度拆解为基础约束、中等约束和困难约束,实现任务难度的精细化控制。
三层约束体系
- :每条实例都配套可执行的checklist,支持A vg-pass和All-pass双指标评测。
自动验证机制
- :通过Generator生成问题、Responder尝试解答、Critic验证答案的闭环流程,自动增强数据难度。
闭环数据生成
- :可验证样本可直接用于强化学习训练,为模型提供稳定的规划能力优化信号。
训练信号输出
PlanningBench的技术原理
- :由具有规划经验的专业标注人员与算法研究人员协作,从个人通勤、企业排产、医疗应急等真实场景中抽象出可复用的问题结构,最终形成六大规划任务家族与30余种具体任务类型。约束被划分为基础约束(时间窗口、资源边界)、中等约束(多目标优化、依赖关系)和困难约束(异常恢复、目标冲突)三个层级,使数据生成能够在结构化设计空间中灵活组合任务与约束。
真实场景抽象与约束体系构建
- :框架的核心是一个 Generator-Responder-Critic 三角色协作的闭环系统。Generator 根据采样的任务与约束组合生成自包含的规划问题及对应验证清单;Responder 模型尝试生成方案;Critic 依据 checklist 逐项检查答案是否满足全部要求。若通过则提高难度,否则保留为挑战性样本。这使得 PlanningBench 成为一个能主动寻找模型能力边界的动态数据生成系统。
约束驱动的闭环合成流程
- :将规划难度拆解为任务结构、约束层级、资源紧张度、目标冲突、依赖关系和异常处理等因素,通过控制约束池的采样分布来调控生成数据的难度。基础约束确保方案完整性与可执行性,中等约束引入公平性与负载均衡要求,困难约束则测试模型在不可行识别、最小变更重规划和鲁棒性设计上的能力,让难度提升真正作用于规划推理深度。
三层难度约束体系
如何使用PlanningBench
- :访问 GitHub 仓库克隆代码,或从 HuggingFace 下载数据集。
获取资源
- :加载PlanningBench评测集,调用模型生成规划方案,使用内置checklist自动计算A vg-pass和All-pass指标。
运行评测
- :配置任务类型与约束层级,运行闭环生成流程,按需产出特定难度和领域的规划训练数据。
生成定制数据
- :用生成的可验证样本作为奖励信号,对目标模型进行强化学习训练,迁移到下游规划任务。
训练模型
PlanningBench的核心优势
- :通过自动checklist精确判定方案是否全局可执行。
可验证性
- :基于约束层级而非简单增加提示词长度来调控任务难度,更贴近真实规划复杂度。
难度可控
- :A vg-pass与All-pass双指标能识别“局部正确但整体不可执行”的模型输出。
诊断精准
- :仅300条样本即可通过GRPO训练提升模型在外部规划基准和通用指令遵循任务上的表现。
训练迁移
- :任务来源于通勤、排产、医疗调度等实际场景,避免模型在固定题库上过拟合。
场景真实
PlanningBench的项目地址
- :https://github.com/Tencent-Hunyuan/PlanningBench
GitHub仓库
- :https://huggingface.co/datasets/tencent/PlanningBench
HuggingFace模型库
- :https://arxiv.org/pdf/2605.20873
arXiv技术论文
PlanningBench的同类竞品对比
表格如下:
| 维度 | PlanningBench | AgentBench |
|---|---|---|
核心定位 |
专注于大模型规划能力 |
综合性大模型智能体能力 |
任务覆盖 |
覆盖6大类30余种真实规划任务,包括日程排布、资源分配、人力排班、路径调度、生产运营、应急服务。 | 覆盖8个交互环境,包括操作系统、数据库、知识图谱、数字卡牌、横向思维、家庭管理、网上购物、网页浏览。 |
验证机制 |
每条实例配套结构化checklist,自动逐项验证约束满足情况,精确判定方案是否全局可执行。 | 基于环境执行反馈与结果匹配判定任务成功,不同环境有独立的验证逻辑。 |
评测指标 |
采用A vg-pass(局部约束满足率)与All-pass(全局可执行率)双指标,识别“局部正确但整体不可执行”的输出。 | 主要采用Success Rate(成功率),按8个环境分别统计,衡量任务最终完成度。 |
难度控制 |
通过三层约束体系(基础/中等/困难)与闭环难度增强机制,主动调控约束耦合度和资源冲突强度。 | 通过多轮交互(5-50轮)和环境复杂度递进提升难度,更侧重交互深度而非约束密度。 |
环境交互 |
面向静态规划问题求解,模型在明确输入下生成完整方案,无需与外部环境实时交互。 | 要求模型与模拟环境(如bash终端、浏览器、数据库)进行实时多轮交互,动态获取反馈。 |
训练支持 |
原生支持训练,可验证数据可直接作为GRPO等强化学习的奖励信号,且能迁移到外部基准。 | 主要用于评测,框架本身不直接提供可扩展的训练数据生成能力。 |
PlanningBench的应用场景
- :精准识别大模型在约束推理、资源分配、状态跟踪等规划核心能力上的短板。
模型能力诊断
- :为AI Agent提供可验证的规划训练数据,提升其在日程安排、物流调度等任务中的可靠性。
智能体训练
- :作为规划能力研究的基准工具,支持可复现、可扩展的模型对比实验。
学术研究
- :基于框架生成特定业务场景(如护士排班、生产排产)的评测数据,评估模型落地可行性。
企业排程优化
- :用学生分组、物资分发等任务类型,验证模型在多约束条件下的公平性与最优性。
教育分组与资源分配