一、文章主要内容总结本文提出了Toolformer,一种能通过自监督学习自主使用外部工具的语言模型(LM),旨在解决大语言模型在事实查询、算术计算、多语言翻译、时间感知等基础功能上的固有缺陷,同时保留其核心语言建模能力。核心问题:大语言模型(如GPT-J、GPT-3)虽在少样本/零样本任务中表现出色,但存在无法获取实时信息、易虚构事实、数学能力薄弱、低资源语言支持不足、缺乏时间感知等局限;现有工具使用方法依赖大量人工标注或局限于特定任务,通用性差。技术方案:让模型通过API调用外部工具(计算器、问答系统、维基搜索、机器翻译、日历),自主决策“调用哪种工具、何时调用、传递什么参数、如何整合结果”。训练流程分三步:① 基于上下文学习采样潜在API调用;② 执行调用并过滤掉对预测未来token无帮助的调用(通过损失函数判断);③ 用过滤后的含API调用数据微调模型。实验结果:基于6.7B参数的GPT-J微调后,Toolformer在LAMA(事实补全)、数学基准(ASDiv/SVAMP/MAWPS)、时间相关任务等零样本场景中大幅超越同规模模型,甚至优于175B参数的GPT-3和66B参数的OPT。未牺牲核心语言建模能力(在WikiText和CCNet数据集上的困惑度与原始模型相当)。模型规模需达到775M参数以上才能有效利用工具,更强的基础模型对
2025_NIPS_Toolformer: Language Models Can Teach Themselves to Use Tools
发布时间:2026/5/25 6:21:38
一、文章主要内容总结本文提出了Toolformer,一种能通过自监督学习自主使用外部工具的语言模型(LM),旨在解决大语言模型在事实查询、算术计算、多语言翻译、时间感知等基础功能上的固有缺陷,同时保留其核心语言建模能力。核心问题:大语言模型(如GPT-J、GPT-3)虽在少样本/零样本任务中表现出色,但存在无法获取实时信息、易虚构事实、数学能力薄弱、低资源语言支持不足、缺乏时间感知等局限;现有工具使用方法依赖大量人工标注或局限于特定任务,通用性差。技术方案:让模型通过API调用外部工具(计算器、问答系统、维基搜索、机器翻译、日历),自主决策“调用哪种工具、何时调用、传递什么参数、如何整合结果”。训练流程分三步:① 基于上下文学习采样潜在API调用;② 执行调用并过滤掉对预测未来token无帮助的调用(通过损失函数判断);③ 用过滤后的含API调用数据微调模型。实验结果:基于6.7B参数的GPT-J微调后,Toolformer在LAMA(事实补全)、数学基准(ASDiv/SVAMP/MAWPS)、时间相关任务等零样本场景中大幅超越同规模模型,甚至优于175B参数的GPT-3和66B参数的OPT。未牺牲核心语言建模能力(在WikiText和CCNet数据集上的困惑度与原始模型相当)。模型规模需达到775M参数以上才能有效利用工具,更强的基础模型对