首页 > 教程攻略 > ai资讯 >腾讯与人大高瓴联合推出开源规划评测框架 PlanningBench

腾讯与人大高瓴联合推出开源规划评测框架 PlanningBench

来源：互联网时间：2026-06-06 14:33:05

最近，腾讯混元团队和人大高瓴人工智能学院等机构联手，推出并开源了一个新框架——PlanningBench。它的定位，就是用来评测和训练大语言模型在规划这件事上的能力。而且，这个框架是可扩展、可验证的，数据生成和检查都能跟上。

PlanningBench的切入点很务实，它从真实规划场景出发，把任务、约束、难度这些因素系统地抽象出来，搭建起一个覆盖超过30种规划任务类型的数据生成与验证体系。这套体系不仅能看一个模型到底有没有规划能力，还能为模型训练提供稳定的、可迁移的奖励信号——这才是关键所在。

任务设计上，PlanningBench覆盖了六大类实际应用：日程排布、资源分配、人力排班、路径调度、生产运营和应急服务。范围这么广，就是为了避免模型只在某一个领域里“刷题”刷得漂亮，换个场景就露怯。让模型真正去应对多样化的真实世界，这才是初衷。

值得一提的还有它的难度控制体系。它通过拆解任务结构、约束层级、资源紧张度这些因素来调整难度，而不是简单地把提示词变长、变复杂。每条数据实例还附带一个checklist，用来评估模型的输出是否满足输入条件、是否受资源限制、以及目标是否达到最优。这就扎扎实实地把评估落到了细节上。

有意思的是，PlanningBench同时关注“局部合规”和“全局成功”，能识别出那种“看起来大部分都对，但实际上整体根本无法执行”的计划。这种能力，对于诊断大语言模型在复杂约束下的真实规划水平，价值非常大。

从实际效果看，用PlanningBench的可验证数据去训练模型，模型在没见过的规划基准和通用任务上的表现也明显提升了。这说明它的学习信号确实具有通用性。整体来看，PlanningBench走通了一个真实的闭环：从场景出发生成数据，数据驱动训练，训练成果还能迁移到更多任务上。对于未来的人工智能规划研究来说，这无疑提供了一个新的方向和工具箱。

腾讯与人大高瓴联合推出开源规划评测框架 PlanningBench

相关阅读

相关下载

​腾讯与人大高瓴联合推出开源规划评测框架 PlanningBench

相关阅读

相关下载

腾讯与人大高瓴联合推出开源规划评测框架 PlanningBench