标题Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design来源arXiv, 2605.15871v1️文章简介研究问题大型语言模型智能体能否在不依赖人类直觉的情况下自主设计出超越标准 Transformer 范式的高效基础模型架构及训练策略主要贡献论文提出了 AIRA-Compose 和 AIRA-Design 双框架成功发现了 14 种新型混合架构其性能与扩展效率均优于 Llama 3.2 及现有神经架构搜索方法。重点思路AIRA-Compose 框架利用由 11 个智能体组成的集群在固定算力预算下通过迭代设计并评估百万参数级的小规模模型搜索注意力、MLP 和 Mamba 等计算原语的最佳排列组合随后将最优设计外推至十亿参数规模。AIRA-Design 框架指派多达 20 个智能体直接编写代码从零实现 novel 的长程依赖注意力机制以应对 LRA 基准测试或优化训练脚本以在固定时间内最小化验证损失。研究采用分层评估策略先在小规模代理数据集上快速筛选候选架构再通过聚合技术提取鲁棒模式最终在 350M、1B 及 3B 参数量级上进行大规模预训练验证。引入 AIRS-Bench 任务标准将开放的机器学习研究问题转化为智能体可理解的模块化任务支持从假设提出、代码生成、调试到评估的完整自动化科研闭环。分析总结实验显示智能体发现的 AIRAformer 和 AIRAhybrid 架构在 1B 规模固定 token 预算下下游任务准确率分别比 Llama 3.2 高出 2.4% 和 3.8%且验证损失更低。在等 FLOP 扩展性分析中智能体设计的架构展现出更陡峭的计算最优扩展前沿其中部分模型比 Llama 3.2 快 54% 至 71% 达到同等性能水平。在长程 Arena 基准测试中智能体设计的最佳模型在文档匹配和文本分类任务上的准确率仅比人类最先进水平低 2.3% 至 2.6%证明了其在工程实现上的竞争力。在 Autoresearch 任务中结合文献知识的智能体通过迭代优化训练脚本实现了 0.968 的验证 bits-per-byte超越了已发布的参考基线表明智能体能有效利用外部知识改进训练效率。个人观点论文将神经架构搜索从传统的基于强化学习或进化算法的黑盒优化转变为基于大模型智能体的语义驱动探索。
Meta:智能体自主发现高效混合架构
发布时间:2026/6/6 4:10:02
标题Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design来源arXiv, 2605.15871v1️文章简介研究问题大型语言模型智能体能否在不依赖人类直觉的情况下自主设计出超越标准 Transformer 范式的高效基础模型架构及训练策略主要贡献论文提出了 AIRA-Compose 和 AIRA-Design 双框架成功发现了 14 种新型混合架构其性能与扩展效率均优于 Llama 3.2 及现有神经架构搜索方法。重点思路AIRA-Compose 框架利用由 11 个智能体组成的集群在固定算力预算下通过迭代设计并评估百万参数级的小规模模型搜索注意力、MLP 和 Mamba 等计算原语的最佳排列组合随后将最优设计外推至十亿参数规模。AIRA-Design 框架指派多达 20 个智能体直接编写代码从零实现 novel 的长程依赖注意力机制以应对 LRA 基准测试或优化训练脚本以在固定时间内最小化验证损失。研究采用分层评估策略先在小规模代理数据集上快速筛选候选架构再通过聚合技术提取鲁棒模式最终在 350M、1B 及 3B 参数量级上进行大规模预训练验证。引入 AIRS-Bench 任务标准将开放的机器学习研究问题转化为智能体可理解的模块化任务支持从假设提出、代码生成、调试到评估的完整自动化科研闭环。分析总结实验显示智能体发现的 AIRAformer 和 AIRAhybrid 架构在 1B 规模固定 token 预算下下游任务准确率分别比 Llama 3.2 高出 2.4% 和 3.8%且验证损失更低。在等 FLOP 扩展性分析中智能体设计的架构展现出更陡峭的计算最优扩展前沿其中部分模型比 Llama 3.2 快 54% 至 71% 达到同等性能水平。在长程 Arena 基准测试中智能体设计的最佳模型在文档匹配和文本分类任务上的准确率仅比人类最先进水平低 2.3% 至 2.6%证明了其在工程实现上的竞争力。在 Autoresearch 任务中结合文献知识的智能体通过迭代优化训练脚本实现了 0.968 的验证 bits-per-byte超越了已发布的参考基线表明智能体能有效利用外部知识改进训练效率。个人观点论文将神经架构搜索从传统的基于强化学习或进化算法的黑盒优化转变为基于大模型智能体的语义驱动探索。