一、文章主要内容总结该研究聚焦大型语言模型(LLMs)的规划与行动变更推理能力评估,核心贡献是提出了PlanBench——一个可扩展的基准测试套件。背景与动机:现有LLM规划能力评估多依赖常识任务,难以区分模型是真正规划还是调用训练数据中的知识;而自动化规划领域(如国际规划竞赛IPC)有成熟的领域和任务,可弥补这一缺陷,因此需构建系统化、可扩展的规划基准。PlanBench核心设计:基础架构:包含领域无关组件(规划器、计划验证器、测试用例生成与验证工具)和领域相关组件(领域模型、问题生成器、符号-自然语言翻译器)。初始领域与数据:基于IPC的Blocksworld(积木世界)和Logistics(物流)两大领域,提供原始版本及含误导性词汇、随机字符的混淆版本,共约26250个提示词,支持8类核心测试任务。测试任务:涵盖计划生成、成本最优规划、计划验证、计划执行推理、目标重构鲁棒性、计划复用、重新规划、计划泛化,全面覆盖规划相关核心能力。实验结果:对GPT-4和Instruct-GPT3的评估显示,即使是SOTA模型,在多数关键任务(如计划生成仅6.8%正确率)上表现欠佳,仅在目标重构鲁棒性等辅助任务中表现较好,证实LLM的规划与行动变更推理能力仍有巨大提升空间。可用性:基准套件已开源(含工具、数据集、脚本),支持新增IPC领域和LLM模型测试,
2025_NIPS_PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and...
发布时间:2026/5/25 6:21:38
一、文章主要内容总结该研究聚焦大型语言模型(LLMs)的规划与行动变更推理能力评估,核心贡献是提出了PlanBench——一个可扩展的基准测试套件。背景与动机:现有LLM规划能力评估多依赖常识任务,难以区分模型是真正规划还是调用训练数据中的知识;而自动化规划领域(如国际规划竞赛IPC)有成熟的领域和任务,可弥补这一缺陷,因此需构建系统化、可扩展的规划基准。PlanBench核心设计:基础架构:包含领域无关组件(规划器、计划验证器、测试用例生成与验证工具)和领域相关组件(领域模型、问题生成器、符号-自然语言翻译器)。初始领域与数据:基于IPC的Blocksworld(积木世界)和Logistics(物流)两大领域,提供原始版本及含误导性词汇、随机字符的混淆版本,共约26250个提示词,支持8类核心测试任务。测试任务:涵盖计划生成、成本最优规划、计划验证、计划执行推理、目标重构鲁棒性、计划复用、重新规划、计划泛化,全面覆盖规划相关核心能力。实验结果:对GPT-4和Instruct-GPT3的评估显示,即使是SOTA模型,在多数关键任务(如计划生成仅6.8%正确率)上表现欠佳,仅在目标重构鲁棒性等辅助任务中表现较好,证实LLM的规划与行动变更推理能力仍有巨大提升空间。可用性:基准套件已开源(含工具、数据集、脚本),支持新增IPC领域和LLM模型测试,