【AI】英伟达 AVO 自动生成GPU算子 智能体变异算子Agentic Variation Operators, AVO是英伟达NVIDIA近期发布的一项突破性技术它代表着AI从“代码生成工具”向“自主进化系统”的范式转变。简单来说AVO是一个能够自主发现、优化并验证底层代码的智能体系统。它最引人注目的成就是在没有任何人工干预的情况下仅用7天时间就优化出了比英伟达官方专家级库cuDNN和开源最先进方案FlashAttention-4性能更强的GPU算子。 什么是AVO核心理念传统的AI代码生成或进化算法通常将大语言模型LLM限制在一个固定的“流水线”中人类设定好规则AI负责生成候选代码然后由人类或另一个程序来测试和筛选。这种方式效率低且AI无法进行深度迭代思考。AVO彻底颠覆了这一模式。它将AI从一个被动的“代码生成器”提升为掌握全局的“进化操盘手”。AVO智能体拥有更高的权限和更全面的视角能够自主完成一个完整的工程工作流查阅资料访问领域专属知识库如CUDA编程指南和PTX架构文档。提出方案基于分析和历史版本自主规划并提出代码修改方案。实现与测试编写代码并调用工具进行编译和性能评估。诊断与修正根据测试反馈如性能瓶颈、错误日志进行自我诊断并修正策略进入下一轮迭代。 实战表现7天超越人类专家为了验证其能力英伟达团队让AVO挑战了一个公认的“硬骨头”在最新的NVIDIA Blackwell (B200) GPU上优化多头注意力Multi-head Attention, MHA内核。这是驱动当今大语言模型的核心组件也是全球顶尖工程师投入巨资优化的焦点。在长达7天的连续自主演化中AVO交出了一份惊人的答卷自主探索探索了超过500个优化方向并演化出40个有效的内核版本。性能突破最终生成的MHA内核在BF16精度下实现了高达1668 TFLOPS的吞吐量。超越标杆性能超越了英伟达官方闭源库cuDNN 高达 3.5%超越了学术界最前沿的开源方案FlashAttention-4 高达 10.5%。更令人印象深刻的是其强大的泛化能力。当研究人员要求AVO将优化成果迁移到另一种常用的注意力机制——分组查询注意力GQA时智能体仅用了约30分钟的自主调整就完成了任务并且性能依然领先cuDNN 7.0%领先FlashAttention-4 9.3%。 技术深度真正的硬件级推理AVO的成功并非简单的代码“试错”。分析表明它进行的优化深入到了GPU的微架构层面展现了真正的“硬件级推理”能力。它发现的优化策略涵盖了寄存器分配更高效地利用GPU核心的寄存器资源。指令流水线调度优化指令执行顺序减少等待时间。负载分布让不同的计算单元更均衡地分担工作。这些优化是人类专家通常需要数月才能完成的深度工作而AVO在无人干预的情况下自主完成了。 意义与影响AVO的出现被一些业内人士称为GPU编码领域的“AlphaGo时刻”。它的意义深远自动化优化本身证明了AI不仅可以自动化任务还可以自动化“优化”这个过程本身。解放顶尖专家未来顶尖的GPU优化工程师可能不再需要花费数月手工调优AI可以承担这部分工作极大地加速AI硬件的迭代。降低硬件门槛同样的硬件能跑出更快的模型意味着训练和推理成本有望降低。这项研究由英伟达一支23人的顶级团队完成其核心开发者甚至表示他们最初并不精通GPU编程这种“不懂”反而让AI摆脱了人类认知的局限探索出了人类专家可能永远想不到的优化方案。