首页 > 教程攻略 > ai资讯 >​腾讯与人大高瓴联合推出开源规划评测框架 PlanningBench

​腾讯与人大高瓴联合推出开源规划评测框架 PlanningBench

来源:互联网 时间:2026-06-06 14:33:05

最近,腾讯混元团队和人大高瓴人工智能学院等机构联手,推出并开源了一个新框架——PlanningBench。它的定位,就是用来评测和训练大语言模型在规划这件事上的能力。而且,这个框架是可扩展、可验证的,数据生成和检查都能跟上。

image.png

PlanningBench的切入点很务实,它从真实规划场景出发,把任务、约束、难度这些因素系统地抽象出来,搭建起一个覆盖超过30种规划任务类型的数据生成与验证体系。这套体系不仅能看一个模型到底有没有规划能力,还能为模型训练提供稳定的、可迁移的奖励信号——这才是关键所在。

任务设计上,PlanningBench覆盖了六大类实际应用:日程排布、资源分配、人力排班、路径调度、生产运营和应急服务。范围这么广,就是为了避免模型只在某一个领域里“刷题”刷得漂亮,换个场景就露怯。让模型真正去应对多样化的真实世界,这才是初衷。

值得一提的还有它的难度控制体系。它通过拆解任务结构、约束层级、资源紧张度这些因素来调整难度,而不是简单地把提示词变长、变复杂。每条数据实例还附带一个checklist,用来评估模型的输出是否满足输入条件、是否受资源限制、以及目标是否达到最优。这就扎扎实实地把评估落到了细节上。

有意思的是,PlanningBench同时关注“局部合规”和“全局成功”,能识别出那种“看起来大部分都对,但实际上整体根本无法执行”的计划。这种能力,对于诊断大语言模型在复杂约束下的真实规划水平,价值非常大。

从实际效果看,用PlanningBench的可验证数据去训练模型,模型在没见过的规划基准和通用任务上的表现也明显提升了。这说明它的学习信号确实具有通用性。整体来看,PlanningBench走通了一个真实的闭环:从场景出发生成数据,数据驱动训练,训练成果还能迁移到更多任务上。对于未来的人工智能规划研究来说,这无疑提供了一个新的方向和工具箱。