收藏！小白程序员必看：小米团队如何用ARL-Tangram提升大模型资源效率4.3倍？

发布时间：2026/5/19 3:01:56

本文介绍了小米与北京大学联合提出的ARL-Tangram系统该系统通过动作级编排和统一资源管理有效解决了智能体强化学习在云资源利用上的低效问题。ARL-Tangram实现了细粒度的外部资源共享与弹性调度显著提升了资源利用率将平均动作完成时间缩短4.3倍强化学习训练步长加速1.5倍外部资源节省71.2%。该系统已成功应用于小米MiMo系列大模型的训练为开发者提供了一种高效的资源管理方案。智能体强化学习Agentic RL已成为云集群核心负载支撑 LLM 通过外部工具交互解决复杂问题然而与传统强化学习不同智能体强化学习需要大量外部云资源例如用于代码执行的CPU和用于奖励模型的GPU这些资源都位于主要训练集群之外。现有的智能体强化学习框架通常依赖静态过度配置即资源往往与长生命周期轨迹绑定或按任务隔离导致严重的资源效率低下问题。为此小米罗福莉团队联合北京大学提出**动作级编排action-level orchestration**并构建统一资源管理系统 ARL-Tangram能够实现细粒度的外部资源共享与弹性调度。ARL-Tangram采用统一的动作级表征与弹性调度算法在满足异构资源约束的同时最小化动作完成时间。此外系统还定制了异构资源管理器以高效支持在具有不同特性与拓扑结构的资源上执行动作级任务。在实际智能体强化学习任务上的评估表明ARL-Tangram将平均动作完成时间ACT最多提升达 4.3×强化学习训练步长加速 1.5×外部资源节省 71.2%。该系统目前已部署用于支持小米 MiMo 系列大模型的训练。论文标题ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning论文链接https://arxiv.org/pdf/2603.130191、方法为解决现有的强化学习框架在外部资源管理上的低效问题研究团队提出了动作级调度action-level scheduling将外部资源管理的粒度从原来的轨迹级或任务级转变为更细粒度的动作级即原子调用级别。将长生命周期环境/服务的资源占用进行拆解并将相同资源类型的动作所需资源汇聚成池。此外该细粒度资源管理支持弹性资源分配以降低动作的执行延迟。如图 1 所示在两个 RL 任务和 4 个调用同类外部资源的轨迹上与现有方法相比动作级调度通过缓解过度配置减少了外部资源需求并通过弹性资源分配加快了rollout速度。然而实现动作级调度并非易事主要原因有三点首先编排各种外部资源的动作非常复杂。单个动作可能需要多种资源类型而各个动作不同的弹性和执行模式进一步加剧了这种复杂性这就需要一种通用的抽象模型。其次调度器必须在延迟敏感的工作负载下运行。留给调度决策的时间窗口极短这需要一种轻量级算法能够处理高并发和突发的工作负载。最后如何统一且高效地管理具有不同特性和拓扑结构的异构外部资源也是一大挑战。因此研究团队设计了动作级资源管理系统ARL-TangramAgentic Reinforcement Learning Tangram旨在对所有外部资源调用进行统一编排。该系统首先通过统一动作表征unified action formulation管理具备异构资源需求与成本的各类动作将每个动作转化为向量化的资源成本表示该向量涵盖了 CPU、GPU、内存及 API 配额等各类资源约束。关键在于这一表征方式融入了弹性建模elasticity modeling使系统能够有效区分弹性动作并计算出为动作分配更多资源时的执行时间降幅。这种标准化的表征方式让 ARL-Tangram 可将不同类型的动作统一为标准化格式从而实现高效调度。ARL-Tangram 的核心是弹性资源调度算法其设计目标为最小化动作完成时间Action Completion Time, ACT。研究团队发现缩短动作执行时间能够提升智能体强化学习RL训练的端到端效率因此基于上述动作表征方法与系统实时状态设计了一种启发式调度算法该算法内置贪婪驱逐机制greedy eviction mechanism可动态制定调度策略避免了因分配过于激进或保守而导致次优的 ACT 和强化学习训练效率下降。ARL-Tangram 是一款独立部署的系统不依赖于特定的强化学习RL框架、外部调用类型及外部资源类型。这一设计使其能够适配各类外部资源且可跨不同 RL 框架运行兼具良好的通用性与易用性。2、评估图6展示了在不同工作负载下随着强化学习训练的推进连续小时间窗口内的平均动作完成时间ACT变化。观察发现ARL-Tangram下的ACT始终低于基线方法。这一结果表明在相同外部资源条件下ARL-Tangram能更有效地处理突发性工作负载通过缓解过度配置和提升外部资源利用率来降低ACT。研究团队进一步报告了10个强化学习训练步骤的平均时长简称步骤时长以此说明ARL-Tangram对端到端训练效率的提升作用。AI Coding与DeepSearch的步骤时长均显著下降分别提升了1.4×和1.5×。图7详细展示了轨迹时长的分解情况进一步说明了ARL-Tangram在外部调用方面带来的改进。在AI Coding任务中环境交互时长与奖励计算时长均显著减少分别降低了 9.0×和 2.8×总体降低了 4.3×。图8(b)右侧进一步突出了ARL-Tangram在固定批次大小batch size为1024的情况下降低外部资源成本的优势。ARL-Tangram仅需使用过度配置over-provisioned基线系统所需GPU数量的 29%即可支持10个奖励服务并实现相同的行动完成时间ACT。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型入门到实战全套学习大礼包1、大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通2、大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。3、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。4、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。5、大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

MySQL DELETE 语句详解

MySQL DELETE 语句详解 MySQL DELETE 语句是数据库管理中用于删除表中记录的重要工具。本文将详细解析 MySQL DELETE 语句的用法、注意事项以及在实际应用中的优化策略。 1. DELETE 语句基本语法 DELETE 语句的基本语法如下： DELETE FROM 表名 WHERE 条件;其中，表名是需…

2026/5/18 22:47:40 阅读更多

4个核心步骤实现Zotero PDF翻译精度提升40%

4个核心步骤实现Zotero PDF翻译精度提升40% 【免费下载链接】zotero-pdf-translate 支持将PDF、EPub、网页内容、元数据、注释和笔记翻译为目标语言，并且兼容20多种翻译服务。项目地址: https://gitcode.com/gh_mirrors/zo/zotero-pdf-translate 面向学术研…

2026/5/16 15:23:01 阅读更多

OpenClaw模型微调：Qwen3.5-4B-Claude适配垂直领域实践

OpenClaw模型微调：Qwen3.5-4B-Claude适配垂直领域实践 1. 为什么选择Qwen3.5-4B-Claude进行微调去年我在处理法律合同自动化审阅项目时，发现通用大模型在专业术语理解和条款关联性判断上表现不稳定。一次偶然的机会，我在星图平台发现了Qwe…

2026/5/17 15:26:24 阅读更多

Claude Code + Windows 桌面消息通知配置指南

Claude Code Windows 桌面通知配置指南让 Claude Code 在完成任务后自动弹出 Windows 桌面通知，不用一直盯着屏幕等。前置条件 Windows 10 或 Windows 11Claude Code CLI 已安装并能正常使用安装步骤第一步：创建通知脚本创建目录 %USERPROFILE%\.cl…

2026/5/19 23:10:15 阅读更多

MRI绕组结构设计及均匀度优化算法【附算法】

✨ 长期致力于MRI、均匀度、球面谐波、目标场、主被动匀场、优化算法、超导磁体、线性规划、非线性规划研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1&#xff0…

2026/5/19 23:10:15 阅读更多

技术深度解析：phone2qq项目如何通过逆向工程实现手机号到QQ号的精准映射

技术深度解析：phone2qq项目如何通过逆向工程实现手机号到QQ号的精准映射【免费下载链接】phone2qq 项目地址: https://gitcode.com/gh_mirrors/ph/phone2qq 在数字身份关联日益重要的今天，phone2qq项目提供了一个独特的技术视角，展示…

2026/5/19 23:09:55 阅读更多

从零实现自己的agent第三期: 个人 Agent 记忆系统的实现

给 Agent 做记忆系统：别让 history 无限长下去摘要：上一篇我们用 history 让模型拥有上下文，但这个办法有天然上限：对话越长、工具输出越多，history 就越重。真正能长期工作的 Agent，需要把原始记录、情景…

2026/5/19 23:09:12 阅读更多

RK3588部署YOLOv5实战：从模型转换到机器狗视觉系统优化

1. 项目概述与核心价值最近在折腾一个挺有意思的项目，用迅为的RK3588开发板给一台四足机器狗做“大脑”。这活儿听起来挺酷，但真正上手后，你会发现，光有强大的硬件还不够，如何把硬件的算力实实在在地转化成机器狗“看得…

2026/5/19 23:09:12 阅读更多

RH850 MCU在IAR环境下的开发调试全流程实战指南

1. 项目概述与核心价值如果你正在或即将踏入汽车电子开发领域，尤其是涉及到车身控制、域控制器、电池管理等核心电控单元，那么瑞萨电子的RH850系列32位MCU大概率会出现在你的选型清单里。这个系列在业内以其高可靠性、强大的功能安全特性和面向未来汽车电…

2026/5/19 23:09:12 阅读更多

5分钟快速上手：biliTickerBuy开源工具助你轻松抢购B站会员购热门票务

5分钟快速上手：biliTickerBuy开源工具助你轻松抢购B站会员购热门票务【免费下载链接】biliTickerBuy b站会员购购票辅助工具项目地址: https://gitcode.com/GitHub_Trending/bi/biliTickerBuy biliTickerBuy是一款专为B站会员购平台设计的开源辅助工具&…

2026/5/19 0:00:10 阅读更多

一口气讲清楚 Monorepo、Turborepo、pnpm、Changesets 到底是什么？

你肯定遇到过这种情况：项目里同时有前端、后端、公共组件，放在一个仓库嫌乱，拆成多个仓库又改一个公共函数要在五个项目里各改一遍。于是出现了 Monorepo、Turborepo、pnpm、Changesets 这四个词。它们不是互相替代，而是分别解决工…

2026/5/19 0:00:31 阅读更多

从ok-skills项目解析技能树：设计理念、技术实现与工程实践

1. 项目概述与核心价值最近在GitHub上看到一个挺有意思的项目，叫“ok-skills”。光看这个名字，可能有点摸不着头脑，但点进去一看，发现这是一个关于“技能树”或“知识图谱”的开源项目。简单来说，它试图用一种结构化的…

2026/5/19 0:01:12 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/19 4:14:12 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/19 6:17:20 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/19 0:56:48 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/19 0:13:34 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/19 0:00:02 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/19 22:33:20 阅读更多

相关文章

MySQL DELETE 语句详解

4个核心步骤实现Zotero PDF翻译精度提升40%

OpenClaw模型微调：Qwen3.5-4B-Claude适配垂直领域实践

Claude Code + Windows 桌面消息通知配置指南

MRI绕组结构设计及均匀度优化算法【附算法】

技术深度解析：phone2qq项目如何通过逆向工程实现手机号到QQ号的精准映射

从零实现自己的agent第三期: 个人 Agent 记忆系统的实现

RK3588部署YOLOv5实战：从模型转换到机器狗视觉系统优化

RH850 MCU在IAR环境下的开发调试全流程实战指南

5分钟快速上手：biliTickerBuy开源工具助你轻松抢购B站会员购热门票务

一口气讲清楚 Monorepo、Turborepo、pnpm、Changesets 到底是什么？

从ok-skills项目解析技能树：设计理念、技术实现与工程实践

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)