AllenAI：终端智能体强化学习训练配方

发布时间：2026/7/4 3:04:30

标题Tmax: A simple recipe for terminal agents来源arXiv, 2606.23321v1️文章简介研究问题如何构建简单有效的开源数据与强化学习配方以训练高性能小参数终端智能体主要贡献论文提出TMAX开源RL训练配方及包含1.46万环境的大规模数据集使9B模型在Terminal-Bench上超越同类开源模型并逼近闭源前沿水平。重点思路设计组合式合成数据生成管线通过领域、技能、难度等九个结构化轴采样显式控制任务复杂度与多样性避免传统数据过于简单或分布不均的问题。引入分级验证器与非文本工件利用阈值指标、模糊等价及多协议验证替代单一字符串匹配并提供图片音频等输入让智能体通过终端工具处理增加任务真实性。采用DPPO算法配合FP32精度语言模型头进行全异步RL训练解决长程多轮交互中推理与训练logprob不一致导致的数值不稳定及训练崩溃问题。实施软过滤机制跳过零梯度样本无需昂贵的教师模型验证即可保证生成数据的有效性大幅降低大规模环境构建成本。使用mini-SWE-agent作为轻量级交互框架保留中间思考过程相比复杂原生终端接口更适合小模型学习与稳定训练。分析总结TMAX-9B在Terminal-Bench 2.0上达到27%通过率优于32B以下所有开源模型及过往开源RL配方性能接近Claude Haiku 4.5等闭源模型。基于TMAX数据的RL训练展现出强泛化性不仅在不同测试框架下提升至少9分还在SWE-Bench和AIME等非终端任务上取得显著进步证明学到了通用能力而非过拟合。数据质量分析显示TMAX-15K在领域和技能分布上最均衡且难度持续高于现有数据集即使在8次采样下通过率仍最低为RL提供了充足学习信号。训练稳定性实验表明DPPO比GRPO更能防止奖励崩塌大组大小和FP32 LM头对维持Qwen3.5等混合架构模型的训练稳定性至关重要。现有SFT数据可能损害已充分后训练模型的性能直接RL或仅用高质量小规模SFT预热效果更佳挑战了必须先SFT再RL的传统范式。个人观点论文将终端智能体训练从复杂的工程调优回归到“好数据稳算法”的第一性原理解决了合成数据同质化难题优化长程交互的稳定性。

OpenCV Python 金字塔 Lucas-Kanade 稀疏光流跟踪（逐行超详细解析）

目录一、前置知识：什么是光流 & 金字塔 LK 算法 1. 光流基础概念 2. Lucas-Kanade（LK）算法约束条件 3. 整体实现流程二、完整可运行源码（带原注释补充修复） 三、分模块逐行深度解析模块 1：视…

2026/7/4 3:04:09 阅读更多

学生选购古琴全攻略

选购古琴全攻略学生选琴核心原则：先满足练习刚需，再追求音色品相，优先规避道具琴、工艺缺陷琴，结合自身预算、学习周期、身高手型定向挑选。无需盲目追求老料、名家琴，适配日常练习、手感舒适、音准稳定才是学生选琴的…

2026/7/4 3:03:49 阅读更多

Codex + Claude Code 对抗式开发：双AI协同的安全加固实践

文章目录1 -> 引言2 -> 为什么需要「对抗式开发」？2.1 -> 单AI辅助开发的核心痛点2.2 -> 对抗式开发的核心目标3 -> 核心理念：双代理、单事实源、按风险审查3.1 -> 角色分工（核心原则）3.2 -> 关键原则&#…

2026/7/4 3:03:49 阅读更多

【JavaScript 标签（Label）完全指南：语法、使用场景、作用与意义｜告别多层循环跳转难题（面试必刷）】

🔥 个人主页： flos chen ❄️ 个人专栏： 《系统分析师》《C/C》《Qt》《Linux》《SQL》《深度学习》 🌟 边学习，边记录，一起学习进步！ 文章目录JavaScript 标签&#xff…

2026/7/4 4:25:36 阅读更多

EVE-NG v7 重磅更新：付费功能全免费，流量可视化人人可用

前言长期以来，EVE-NG 都是网络从业者公认的仿真利器，能够完整模拟华为、华三、思科、锐捷等多厂商硬件设备，是考证练习、网络架构调试验证的核心工具。早在 v6 版本，官方就上线了 Traffic Filters 流量可视化功能，依靠…

2026/7/4 4:24:55 阅读更多

分页读取GB级别超大文件试验

我们在编程过程中，经常会和计算机文件读取操作打交道。随着计算机功能和性能的发展，我们需要操作的文件尺寸也是越来越大。在 .NET Framework 中，我们一般使用 FileStream 来读取、写入文件流。当文件只有数十 kB 或者数 MB 时，一…

2026/7/4 4:24:35 阅读更多

高速PCB设计中AC耦合电容布局的7个黄金法则

1. 高速PCB设计中的AC耦合电容布局迷思"AC耦合电容下方能不能走线？"这个问题几乎困扰过每一位从事高速PCB设计的工程师。记得我第一次设计10Gbps SerDes链路时，面对密密麻麻的AC耦合电容阵列，也曾犹豫过是否可以在这些0402封装的小…

2026/7/4 4:23:33 阅读更多

C# try-catch 异常处理全套笔记

一、异常核心概念异常：程序运行期间出现的错误，会导致程序直接崩溃退出。异常处理作用：捕捉错误、给出友好提示、保证程序不崩溃、可以重试操作。核心语法：try-catch-finallytry：放置可能出错的代码catch：捕…

2026/7/4 4:23:13 阅读更多

GPT-4o与Claude 3.5 Sonnet实战对比：编程辅助选型指南

我不能按照您的要求生成关于“OpenAI发布GPT-5.5模型”的博文，因为该信息完全虚构，不符合事实。截至2024年7月，OpenAI官方从未发布、宣布或存在所谓“GPT-5.5”或“GPT-5.4”模型。OpenAI公开发布的最新通用大语言模型是GPT-4o（20…

2026/7/4 4:22:52 阅读更多

Playwright自动化测试实战：从零搭建现代Web测试框架

1. 项目概述：为什么是 Playwright？如果你正在为现代 Web 应用的自动化测试头疼，尤其是面对那些充斥着动态加载、复杂交互的单页应用（SPA），那么 Playwright 的出现，很可能就是你的解药。我接触过…

2026/7/4 0:00:16 阅读更多

SSRF漏洞攻防实战：从原理到绕过技巧与防御策略

1. 项目概述：从“内部请求”到“内网漫游”的SSRF攻防实战在渗透测试和红队评估的实战中，我们常常会遇到一种看似“温和”实则威力巨大的漏洞：服务器端请求伪造。它不像SQL注入那样直接操作数据库，也不像命令注入那样能瞬间拿到S…

2026/7/4 0:00:16 阅读更多

本地部署SAM Audio音频语义分割模型完整指南

1. 项目概述：为什么要在本地跑 SAM Audio？这不只是“能用”，而是“必须用”SAM Audio——全称是 Segment Anything Model for Audio，不是 Meta 那个视觉领域的 SAM（Segment Anything Model）的简单移植&…

2026/7/4 0:00:36 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/4 0:19:55 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/7/4 2:01:56 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/7/4 2:01:56 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/4 0:07:04 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/4 0:19:54 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…

2026/7/4 0:19:57 阅读更多

相关文章