本文介绍了小米与北京大学联合提出的ARL-Tangram系统该系统通过动作级编排和统一资源管理有效解决了智能体强化学习在云资源利用上的低效问题。ARL-Tangram实现了细粒度的外部资源共享与弹性调度显著提升了资源利用率将平均动作完成时间缩短4.3倍强化学习训练步长加速1.5倍外部资源节省71.2%。该系统已成功应用于小米MiMo系列大模型的训练为开发者提供了一种高效的资源管理方案。智能体强化学习Agentic RL已成为云集群核心负载支撑 LLM 通过外部工具交互解决复杂问题然而与传统强化学习不同智能体强化学习需要大量外部云资源例如用于代码执行的CPU和用于奖励模型的GPU这些资源都位于主要训练集群之外。现有的智能体强化学习框架通常依赖静态过度配置即资源往往与长生命周期轨迹绑定或按任务隔离导致严重的资源效率低下问题。为此小米罗福莉团队联合北京大学提出**动作级编排action-level orchestration**并构建统一资源管理系统 ARL-Tangram能够实现细粒度的外部资源共享与弹性调度。ARL-Tangram采用统一的动作级表征与弹性调度算法在满足异构资源约束的同时最小化动作完成时间。此外系统还定制了异构资源管理器以高效支持在具有不同特性与拓扑结构的资源上执行动作级任务。在实际智能体强化学习任务上的评估表明ARL-Tangram将平均动作完成时间ACT最多提升达 4.3×强化学习训练步长加速 1.5×外部资源节省 71.2%。该系统目前已部署用于支持小米 MiMo 系列大模型的训练。论文标题ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning论文链接https://arxiv.org/pdf/2603.130191、方法为解决现有的强化学习框架在外部资源管理上的低效问题研究团队提出了动作级调度action-level scheduling将外部资源管理的粒度从原来的轨迹级或任务级转变为更细粒度的动作级即原子调用级别。将长生命周期环境/服务的资源占用进行拆解并将相同资源类型的动作所需资源汇聚成池。此外该细粒度资源管理支持弹性资源分配以降低动作的执行延迟。如图 1 所示在两个 RL 任务和 4 个调用同类外部资源的轨迹上与现有方法相比动作级调度通过缓解过度配置减少了外部资源需求并通过弹性资源分配加快了rollout速度。然而实现动作级调度并非易事主要原因有三点首先编排各种外部资源的动作非常复杂。单个动作可能需要多种资源类型而各个动作不同的弹性和执行模式进一步加剧了这种复杂性这就需要一种通用的抽象模型。其次调度器必须在延迟敏感的工作负载下运行。留给调度决策的时间窗口极短这需要一种轻量级算法能够处理高并发和突发的工作负载。最后如何统一且高效地管理具有不同特性和拓扑结构的异构外部资源也是一大挑战。因此研究团队设计了动作级资源管理系统ARL-TangramAgentic Reinforcement Learning Tangram旨在对所有外部资源调用进行统一编排。该系统首先通过统一动作表征unified action formulation管理具备异构资源需求与成本的各类动作将每个动作转化为向量化的资源成本表示该向量涵盖了 CPU、GPU、内存及 API 配额等各类资源约束。关键在于这一表征方式融入了弹性建模elasticity modeling使系统能够有效区分弹性动作并计算出为动作分配更多资源时的执行时间降幅。这种标准化的表征方式让 ARL-Tangram 可将不同类型的动作统一为标准化格式从而实现高效调度。ARL-Tangram 的核心是弹性资源调度算法其设计目标为最小化动作完成时间Action Completion Time, ACT。研究团队发现缩短动作执行时间能够提升智能体强化学习RL训练的端到端效率因此基于上述动作表征方法与系统实时状态设计了一种启发式调度算法该算法内置贪婪驱逐机制greedy eviction mechanism可动态制定调度策略避免了因分配过于激进或保守而导致次优的 ACT 和强化学习训练效率下降。ARL-Tangram 是一款独立部署的系统不依赖于特定的强化学习RL框架、外部调用类型及外部资源类型。这一设计使其能够适配各类外部资源且可跨不同 RL 框架运行兼具良好的通用性与易用性。2、评估图6展示了在不同工作负载下随着强化学习训练的推进连续小时间窗口内的平均动作完成时间ACT变化。观察发现ARL-Tangram下的ACT始终低于基线方法。这一结果表明在相同外部资源条件下ARL-Tangram能更有效地处理突发性工作负载通过缓解过度配置和提升外部资源利用率来降低ACT。研究团队进一步报告了10个强化学习训练步骤的平均时长简称步骤时长以此说明ARL-Tangram对端到端训练效率的提升作用。AI Coding与DeepSearch的步骤时长均显著下降分别提升了1.4×和1.5×。图7详细展示了轨迹时长的分解情况进一步说明了ARL-Tangram在外部调用方面带来的改进。在AI Coding任务中环境交互时长与奖励计算时长均显著减少分别降低了 9.0×和 2.8×总体降低了 4.3×。图8(b)右侧进一步突出了ARL-Tangram在固定批次大小batch size为1024的情况下降低外部资源成本的优势。ARL-Tangram仅需使用过度配置over-provisioned基线系统所需GPU数量的 29%即可支持10个奖励服务并实现相同的行动完成时间ACT。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型入门到实战全套学习大礼包1、大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通2、大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。3、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。4、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。5、大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
收藏!小白程序员必看:小米团队如何用ARL-Tangram提升大模型资源效率4.3倍?
发布时间:2026/5/19 3:01:56
本文介绍了小米与北京大学联合提出的ARL-Tangram系统该系统通过动作级编排和统一资源管理有效解决了智能体强化学习在云资源利用上的低效问题。ARL-Tangram实现了细粒度的外部资源共享与弹性调度显著提升了资源利用率将平均动作完成时间缩短4.3倍强化学习训练步长加速1.5倍外部资源节省71.2%。该系统已成功应用于小米MiMo系列大模型的训练为开发者提供了一种高效的资源管理方案。智能体强化学习Agentic RL已成为云集群核心负载支撑 LLM 通过外部工具交互解决复杂问题然而与传统强化学习不同智能体强化学习需要大量外部云资源例如用于代码执行的CPU和用于奖励模型的GPU这些资源都位于主要训练集群之外。现有的智能体强化学习框架通常依赖静态过度配置即资源往往与长生命周期轨迹绑定或按任务隔离导致严重的资源效率低下问题。为此小米罗福莉团队联合北京大学提出**动作级编排action-level orchestration**并构建统一资源管理系统 ARL-Tangram能够实现细粒度的外部资源共享与弹性调度。ARL-Tangram采用统一的动作级表征与弹性调度算法在满足异构资源约束的同时最小化动作完成时间。此外系统还定制了异构资源管理器以高效支持在具有不同特性与拓扑结构的资源上执行动作级任务。在实际智能体强化学习任务上的评估表明ARL-Tangram将平均动作完成时间ACT最多提升达 4.3×强化学习训练步长加速 1.5×外部资源节省 71.2%。该系统目前已部署用于支持小米 MiMo 系列大模型的训练。论文标题ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning论文链接https://arxiv.org/pdf/2603.130191、方法为解决现有的强化学习框架在外部资源管理上的低效问题研究团队提出了动作级调度action-level scheduling将外部资源管理的粒度从原来的轨迹级或任务级转变为更细粒度的动作级即原子调用级别。将长生命周期环境/服务的资源占用进行拆解并将相同资源类型的动作所需资源汇聚成池。此外该细粒度资源管理支持弹性资源分配以降低动作的执行延迟。如图 1 所示在两个 RL 任务和 4 个调用同类外部资源的轨迹上与现有方法相比动作级调度通过缓解过度配置减少了外部资源需求并通过弹性资源分配加快了rollout速度。然而实现动作级调度并非易事主要原因有三点首先编排各种外部资源的动作非常复杂。单个动作可能需要多种资源类型而各个动作不同的弹性和执行模式进一步加剧了这种复杂性这就需要一种通用的抽象模型。其次调度器必须在延迟敏感的工作负载下运行。留给调度决策的时间窗口极短这需要一种轻量级算法能够处理高并发和突发的工作负载。最后如何统一且高效地管理具有不同特性和拓扑结构的异构外部资源也是一大挑战。因此研究团队设计了动作级资源管理系统ARL-TangramAgentic Reinforcement Learning Tangram旨在对所有外部资源调用进行统一编排。该系统首先通过统一动作表征unified action formulation管理具备异构资源需求与成本的各类动作将每个动作转化为向量化的资源成本表示该向量涵盖了 CPU、GPU、内存及 API 配额等各类资源约束。关键在于这一表征方式融入了弹性建模elasticity modeling使系统能够有效区分弹性动作并计算出为动作分配更多资源时的执行时间降幅。这种标准化的表征方式让 ARL-Tangram 可将不同类型的动作统一为标准化格式从而实现高效调度。ARL-Tangram 的核心是弹性资源调度算法其设计目标为最小化动作完成时间Action Completion Time, ACT。研究团队发现缩短动作执行时间能够提升智能体强化学习RL训练的端到端效率因此基于上述动作表征方法与系统实时状态设计了一种启发式调度算法该算法内置贪婪驱逐机制greedy eviction mechanism可动态制定调度策略避免了因分配过于激进或保守而导致次优的 ACT 和强化学习训练效率下降。ARL-Tangram 是一款独立部署的系统不依赖于特定的强化学习RL框架、外部调用类型及外部资源类型。这一设计使其能够适配各类外部资源且可跨不同 RL 框架运行兼具良好的通用性与易用性。2、评估图6展示了在不同工作负载下随着强化学习训练的推进连续小时间窗口内的平均动作完成时间ACT变化。观察发现ARL-Tangram下的ACT始终低于基线方法。这一结果表明在相同外部资源条件下ARL-Tangram能更有效地处理突发性工作负载通过缓解过度配置和提升外部资源利用率来降低ACT。研究团队进一步报告了10个强化学习训练步骤的平均时长简称步骤时长以此说明ARL-Tangram对端到端训练效率的提升作用。AI Coding与DeepSearch的步骤时长均显著下降分别提升了1.4×和1.5×。图7详细展示了轨迹时长的分解情况进一步说明了ARL-Tangram在外部调用方面带来的改进。在AI Coding任务中环境交互时长与奖励计算时长均显著减少分别降低了 9.0×和 2.8×总体降低了 4.3×。图8(b)右侧进一步突出了ARL-Tangram在固定批次大小batch size为1024的情况下降低外部资源成本的优势。ARL-Tangram仅需使用过度配置over-provisioned基线系统所需GPU数量的 29%即可支持10个奖励服务并实现相同的行动完成时间ACT。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型入门到实战全套学习大礼包1、大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通2、大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。3、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。4、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。5、大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】