NVIDIA 2026年3月27日 00:46

关键词: AI Agent、 进化算法GPU Kernel 优化FlashAttention 、异构计算

,24分钟

注:其实文中没提到 Token 成本,再就是更大的维度,结论可能应谨慎理解为:在中等规模、计算密集型场景下,AVO 能够超越顶级专家实现。低于更大维度下,AVO 能否延续优势,仍是一个开放问题,更多讨论见【关键问题】。

在 NVIDIA 最新的 Blackwell GPU 上,一个 AI Agent 用 7 天时间,自主探索了 500 多个优化方向,最终生成的 Attention 内核性能超越了专家团队数月打磨的 cuDNN 和 FlashAttention-4,最高提升达 10.5%。这并非又一篇 LLM 辅助编程的论文,而是将 AI 从代码生成工具,重塑为整个进化搜索过程的主导者。

以往将大语言模型引入进化的尝试,大多将其限定为预设流程中的“候选生成器”——模型被召唤、生成一个方案、然后退场,由外部的固定规则接管采样与评估。而本文提出的 智能体变异算子(AVO,Agentic Variation Operators ) 彻底打破了这一桎梏:它将变异操作本身完整地交由一个自主编码智能体执行。 这个智能体不再是被动响应的代码生成器,而是一个拥有完全自主权的“算法工程师”。 它可以主动查阅族系中的历史方案、翻阅硬件文档、运行诊断测试、分析 profiling 反馈,并在一次变异中反复提出、修复、评审与验证代码修改,直至产出一个更优的版本。

在这场长达七天的自主进化中,AVO 智能体展现出的并非浅层的代码微调,而是真正的硬件级推理。它所挖掘的优化覆盖了核函数设计的多个层面:寄存器分配、指令流水线调度、工作负载分布、内存同步策略——每一项都需要对 GPU 的多个子系统进行联合推理,而非孤立的参数调优。 更令人惊叹的是,这些在多头注意力上习得的优化,仅需 30 分钟便可迁移至分组查询注意力 ,并继续大幅超越现有最优实现。

AVO 的意义远不止于又一批更快的 Attention 内核。它将智能体的角色从“被调用的组件”提升为“进化的主导者”,为进化搜索打开了一扇全新的大门。当变异算子本身具备了深度规划、持续学习与跨领域迁移的能力,我们便有望将这种自主优化范式推广至更广泛的性能关键型软件系统,乃至任何需要长时间深度探索的工程与科学领域, 如编译器优化、芯片设计。

![图片](data:image/svg+xml,%3C%3Fxml version=‘1.0’ encoding=‘UTF-8’%3F%3E%3Csvg width=‘1px’ height=‘1px’ viewBox=‘0 0 1 1’ version=‘1.1’ xmlns=‘http://www.w3.org/2000/svg’ xmlns:xlink=‘http://www.w3.org/1999/xlink’%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=‘none’ stroke-width=‘1’ fill=‘none’ fill-rule=‘evenodd’ fill-opacity=‘0’%3E%3Cg transform=‘translate(-249.000000, -126.000000)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

,24分钟

相关推荐

这两天,前沿 AI 研究者在最新发布的论文《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》中,提出了一个颠覆性的观点:我们可能正站在一个转折点,AI 不再仅仅是人类工程师手中的“代码生成器”,而是 能够独立承担起整个“进化搜索”流程的自主智能体。

作者核心洞见在于,此前利用 LLM 进行代码优化的工作如 FunSearch、AlphaEvolve,通常将 LLM 局限在一个僵化的流水线中。它们遵循一个固定模式:由框架的启发式算法(如基于 MAP-Elites 的采样)选择父代代码,然后将父代作为提示词(Prompt)输入 LLM,由 LLM 生成一个新代码候选,最后再由框架进行评估。 在这个流程里,LLM 的角色仅仅是“候选生成器”,它没有能力主动审视自己的生成结果,无法查阅文档,更无法进行迭代式的调试和优化。 就像一个被蒙上眼睛的工人,只能在传送带上机械地装配,却无法看清全貌。

AVO(Agentic Variation Operators) 的出现,彻底打破了这一局限。它提出了一种全新的进化算子:用一个拥有规划、记忆和工具调用能力的 AI Agent,完全替代传统的“采样-生成”流程。

这个 Agent 被赋予了前所未有的自主权:

  • 它可以随时查阅 CUDA 编程指南和 PTX 指令集文档,即论文中提到的知识库
  • 可以运行并分析编译器和性能剖析器(Profiler)的输出,即评估函数
  • 可以回溯自己整个进化历程中所有成功的版本,即完整的解决方案家谱

它不再是一个被动等待调用的函数,而是 一个主动探索、持续学习的自主进化体。

在为期 7 天不间断的自主演化中,AVO Agent 在 NVIDIA B200 GPU 上生成了 40 个内核版本,探索了超过 500 个优化方向。最终,它所产出的 Multi-Head Attention (MHA) 内核, 在 BF16 精度下,峰值吞吐量达到了 1668 TFLOPS,比 NVIDIA 官方闭源库 cuDNN 提升了 3.5%,比开源标杆 FlashAttention-4 提升了 10.5%。更令人惊叹的是,这些优化成果并非“死记硬背”的固定模式。 当要求将 MHA 内核适配到 Grouped-Query Attention (GQA)时,AVO Agent 仅用 30 分钟便自主完成了迁移,并在 GQA 任务上继续领先,最高超越 cuDNN 达 7.0%,超越 FlashAttention-4 达 9.3%。

![图 7 NVIDIA B200 上多头注意力前向吞吐量(TFLOPS),对比本文硬件实测 AVO 与 FA4 论文公布的 cuDNN、FlashAttention-4 基线数据;头维度 128、16 个头、BF16 精度。左侧:非因果;右侧:因果。该图用 FA4 论文基线交叉验证,AVO 在因果与非因果场景均全面领先,消除硬件环境差异的干扰。结果进一步证实 AVO 优化的可靠性,其自主进化的内核不依赖测试环境,稳定超越当前最优专家实现,夯实 AVO 在高性能内核优化领域的领先地位。](data:image/svg+xml,%3C%3Fxml version=‘1.0’ encoding=‘UTF-8’%3F%3E%3Csvg width=‘1px’ height=‘1px’ viewBox=‘0 0 1 1’ version=‘1.1’ xmlns=‘http://www.w3.org/2000/svg’ xmlns:xlink=‘http://www.w3.org/1999/xlink’%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=‘none’ stroke-width=‘1’ fill=‘none’ fill-rule=‘evenodd’ fill-opacity=‘0’%3E%3Cg transform=‘translate(-249.000000, -126.000000)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图 7 NVIDIA B200 上多头注意力前向吞吐量(TFLOPS),对比本文硬件实测 AVO 与 FA4 论文公布的 cuDNN、FlashAttention-4 基线数据;头维度 128、16 个头、BF16 精度。左侧:非因果;右侧:因果。该图用 FA4 论文基线交叉验证,AVO 在因果与非因果场景均全面领先,消除硬件环境差异的干扰。结果进一步证实 AVO 优化的可靠性,其自主进化的内核不依赖测试环境,稳定超越当前最优专家实现,夯实 AVO 在高性能内核优化领域的领先地位。

本文将带你深入解读这篇论文,剖析 AVO 如何将 AI Agent 与进化算法深度融合,探索其自主发现的硬件级优化技巧,并探讨这项技术对未来 AI 基础设施开发模式的深远影响。

本文目录

  • 关键问题
  • 问题一:AVO 在 7 天演化中消耗的 token 成本是否已被量化?若将 token 开销纳入考量,AVO 在“性能提升 / 成本”维度上是否仍具优势?
    • 问题二:AVO 的优越性是否真正来自“智能体架构”,而非“更强模型 + 更长运行时间”?
    • 问题三:AVO 的演化过程是否具有可复现性和稳定性?
  • 一、 进化搜索的困境:当 LLM 沦为“代码猴子”
  • 1.1 进化算法的标准范式
    • 1.2 束缚 LLM 的“无形枷锁”
  • 二、 AVO 的核心思想:将 LLM 从“生成器”升级为“算子”
  • 三、 实验验证:7 天超越人类数月的 AI Agent
  • 3.1 实验设置
    • 3.2 Multi-Head Attention (MHA) 上的突破
    • 3.3 Grouped-Query Attention (GQA) 的快速迁移
    • 3.4 进化轨迹的启示
  • 四、 深入硬件:AVO 发现了哪些“鬼斧神工”的优化?
  • 4.1 优化一:分支消除的累加器重缩放
    • 4.2 优化二:Correction/MMA 流水线重叠
    • 4.3 优化三:跨 Warp 组的寄存器重平衡
  • 五、 相关工作与 AVO 的定位
  • 总结与展望:迈向自主优化的未来 ![图片](data:image/svg+xml,%3C%3Fxml version=‘1.0’ encoding=‘UTF-8’%3F%3E%3Csvg width=‘1px’ height=‘1px’ viewBox=‘0 0 1 1’ version=‘1.1’ xmlns=‘http://www.w3.org/2000/svg’ xmlns:xlink=‘http://www.w3.org/1999/xlink’%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=‘none’ stroke-width=‘1’ fill=‘none’ fill-rule=‘evenodd’ fill-opacity=‘0’%3E%3Cg transform=‘translate(-249.000000, -126.000000)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

关键问题

问题一:AVO 在 7 天演化中消耗的 token 成本是否已被量化?若将 token 开销纳入考量,AVO 在“性能提升 / 成本”维度上是否仍具优势?

作者详细描述了 7 天演化中智能体的广泛探索:超过 500 条候选优化方向、40 个提交版本、多次编译、测试、profiling 和文档查阅。但全文未提供任何 token 消耗数据。 从架构描述可以推断,token 开销可能极其高昂:

第一, 每个“编辑–评估–诊断”循环都包含多轮 LLM 调用 。智能体在单次变异中可能经历多次失败尝试,每次尝试都涉及代码生成、错误诊断、策略修正。作者未说明失败尝试与成功提交的比例, 但 500 条探索方向对应仅 40 个提交,意味着大量 token 消耗在了“无果”的路径上。

第二, 持久记忆机制导致上下文持续膨胀 。智能体通过对话历史累积全部上下文,包括所有历史代码、编译输出、profiling 结果、硬件文档摘录。 在 7 天、40 个版本、500+ 次探索后,上下文长度可能达到数十万甚至百万 token 级别,每次 LLM 调用的推理成本呈超线性增长。

第三, 自监督机制的干预本身也消耗 token 。当检测到停滞时,监督代理需回顾整个演化轨迹,这相当于在已有巨额上下文基础上再次进行全轨迹分析,进一步推高成本。

如果 token 成本高达数万甚至数十万美元,那么 AVO 在“超越 cuDNN 3.5%”这一边际收益上的经济合理性就值得质疑。

更关键的是,作者 未说明是否对 token 消耗进行过优化(如上下文裁剪、记忆压缩),也未与人工工程师的薪资成本形成对比。在将 AVO 视为“替代人工优化”的方法时, token 成本是决定其实际可用性的核心指标,不应被回避。

问题二:AVO 的优越性是否真正来自“智能体架构”,而非“更强模型 + 更长运行时间”?

作者并未直接对比 AVO 与 FunSearch、AlphaEvolve 等基线在相同模型与计算资源下的表现,这确实为“架构优越性”的归因留下了模糊空间。然而,从作者描述中可以提炼出两个关键差异,说明 AVO 的优势并非仅来自更强的模型或更长的运行时间。

第一, 智能体的自主性与环境交互深度远超单轮生成或多轮固定流程 。AVO 代理在单次变异步骤中可多次调用评估函数 ,并根据编译错误、正确性失败、性能回退等反馈自主调整策略。 作者明确指出,在提交一个“成功”版本前,可能经历多个“编辑–评估–诊断”循环,且会查阅硬件文档、对比多个历史版本、分析 profiler 输出。这种在单次变异中整合规划、工具使用、迭代调试的能力,是 FunSearch 等“生成–评估”隔离架构所不具备的。

第二, 智能体的持久记忆与上下文累积使其能在长达数天的时间尺度上进行策略迁移 。智能体不仅保留了所有历史版本 ,还通过对话历史累积了编译输出、profiling 结果、失败尝试等。这使得在优化后期如版本 20 到 33,智能体能够基于之前积累的硬件知识进行细粒度调优(如寄存器重分配、流水线重叠),而非从零开始。这种跨步骤的知识复用,在传统 LLM-in-the-loop 方法中通常需要外部记忆机制或人工设计才能实现。

因此,尽管缺乏与基线的直接对比,AVO 的架构确实赋予了它“持续学习型工程师”而非“代码生成器”的行为特征,这种差异在长期、高门槛的优化任务中具有本质意义。

问题三:AVO 的演化过程是否具有可复现性和稳定性?

作者提供了单次 7 天演化的详细轨迹,但对多次运行的表现、随机性影响、收敛稳定性等问题未作报告,这确实是评估该方法工程可靠性的关键缺口。不过,从现有描述中可以识别出几个影响可复现性的关键因素。

  • 首先, 演化过程包含大量内部探索,但提交的版本是高度筛选的结果 。作者指出,40 个提交版本对应超过 500 条内部探索方向,大量尝试因正确性失败、性能回退或“被放弃”而未进入主线。 这意味着即使固定初始种子,智能体内部的随机性(如 LLM 采样温度、工具调用顺序、错误诊断路径)也可能导致完全不同的提交序列和最终性能。
  • 其次, 作者引入了自监督机制来应对“停滞”与“无效循环” ,但该机制本身也是启发式的,其触发条件和干预策略会显著影响演化方向。若触发阈值、候选方向生成方式存在随机性,不同运行中可能在不同阶段被“引导”向不同的优化策略,最终收敛到不同性能水平。
  • 第三, MHA 到 GQA 的迁移仅需 30 分钟,且效果稳定 ,这暗示核心优化(如分支消除、寄存器重分配)对初始演化路径的依赖较低,具有一定泛化性。 但这一观察仅限于 GQA 迁移,并未验证 MHA 本身演化的稳定性。

综合来看, AVO 在当前论文中更像一次“成功案例展示”,而非一套可保证稳定收敛的工程方法 。若要作为通用优化框架,未来工作必须报告多次运行的平均性能、成功率、收敛时间分布,并分析关键随机性来源(如初始提示、LLM 版本、自监督参数)对结果的敏感度。

一、 进化搜索的困境:当 LLM 沦为“代码猴子”

在深入 AVO 之前,我们首先需要理解它所解决的问题——传统进化搜索(Evolutionary Search)在面对如 GPU 内核这般高度复杂的优化目标时的局限性。

1.1 进化算法的标准范式

进化算法是一种受自然选择启发的优化方法。其核心流程可以抽象为两个操作:

  1. 变异(Vary):从一个现有解决方案的集合(群体 )中,通过某种策略(如选择最优解)产生一个新解 。
  2. 更新(Update):将新解加入群体,并淘汰掉性能最差的解,维持群体规模。

在经典的进化算法中,这个“Vary”操作通常由人类设计的启发式规则(如随机修改一个参数)完成。 而在 LLM 时代,研究者们看到了新的可能:用 LLM 来替代这些僵化的启发式规则,让它通过理解代码逻辑来生成更聪明的“变异” 。这类工作,如 FunSearch 和 AlphaEvolve,其 Vary 操作被公式化为:

这里, 是一个由框架定义的、基于规则(如启发式的选择策略)的采样器,它负责从群体 中选出性能较好的父代。 则是由 LLM 执行的,它接收父代代码作为输入,并输出一个优化后的新代码。

1.2 束缚 LLM 的“无形枷锁”

这种模式虽然有效,但存在一个根本性的缺陷 :它将 LLM 这个强大的“大脑”禁锢在了一个极其狭窄的、单次调用的“生成”角色中。

  • 单次生成,缺乏深度 :LLM 每次被调用,只能基于给定的父代代码输出一个结果。它无法进行多轮迭代。比如,它无法说:“我试试这个优化,然后跑一下性能,如果没提升,我再回退,换个方向试试。” 它只能一次性提交一个答案,无论好坏。
  • 被动执行,缺乏主动性 :LLM 无法主动去获取信息。它不能自己去查阅硬件手册,也不能自己去运行剖析器来定位瓶颈。 所有这些外部知识和反馈,都只能通过框架的提示词被动地塞给它。
  • 割裂的流程,缺乏记忆 :虽然群体 保存了所有历史解,但 LLM 在每一次生成时,只能看到由选出的那一个或几个父代。 它无法纵览整个进化历程,无法从一个更长的时间跨度去思考 :“我前几轮尝试过的那些失败方案,为什么失败了?我现在的新方案能否避免那些问题?”

这种模式下的 LLM,更像一个在工厂流水线上、按照既定图纸工作的工人,而不是一个能够自主发现问题、研究解决方案的工程师。 对于那些需要深入、迭代式工程探索的领域,比如 GPU 内核优化,这种“单次生成”的范式无疑是不够的。它无法模拟人类专家那种“实现-测试-分析-优化”的闭环工程流程。

二、 AVO 的核心思想:将 LLM 从“生成器”升级为“算子”

正是为了打破上述束缚,论文提出了 AVO(Agentic Variation Operators)。它的核心创新,用一个公式就可以清晰表达:

在这个新公式中,原本需要多步骤、由框架控制的“采样-生成”流程,被一个单一的、拥有完整自主权的 Agent 所取代。

![图 2 智能体变异算子(AVO)结构示意图。该图直观呈现 AVO 的核心运行逻辑,整合采样、生成、评估为自主智能体闭环,可调用历史方案、领域知识库与评估函数。结合论文,AVO 以自主循环替代传统分解式变异操作,智能体自主决定查阅资料、修改代码、测试验证的时机,支持多日连续进化。示意图印证 AVO 的架构创新,为后续注意力内核自主优化提供流程支撑。](data:image/svg+xml,%3C%3Fxml version=‘1.0’ encoding=‘UTF-8’%3F%3E%3Csvg width=‘1px’ height=‘1px’ viewBox=‘0 0 1 1’ version=‘1.1’ xmlns=‘http://www.w3.org/2000/svg’ xmlns:xlink=‘http://www.w3.org/1999/xlink’%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=‘none’ stroke-width=‘1’ fill=‘none’ fill-rule=‘evenodd’ fill-opacity=‘0’%3E%3Cg transform=‘translate(-249.000000, -126.000000)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图 2 智能体变异算子(AVO)结构示意图。该图直观呈现 AVO 的核心运行逻辑,整合采样、生成、评估为自主智能体闭环,可调用历史方案、领域知识库与评估函数。结合论文,AVO 以自主循环替代传统分解式变异操作,智能体自主决定查阅资料、修改代码、测试验证的时机,支持多日连续进化。示意图印证 AVO 的架构创新,为后续注意力内核自主优化提供流程支撑。

这个 Agent 被赋予了三个关键资源 ,使其能够像人类专家一样工作:

  1. 完整的进化家谱 : 不同于传统方法只能看到被选中的父代, AVO Agent 能看到所有历史解决方案,包括那些失败的、性能平平的尝试 。这为它提供了丰富的上下文,让它能理解哪些路径是死胡同,哪些方向值得深入探索。
  2. 领域知识库 : Agent 可以直接访问 CUDA 编程指南、PTX ISA 文档、Blackwell 硬件架构手册,甚至 FlashAttention-4 的源代码 。这意味着它可以在需要时,像人类工程师一样“查手册”,确保自己的优化方案符合硬件规范。
  3. 评估与反馈机制 : Agent 可以直接调用编译器和性能剖析器。它可以自主决定:“我写完这段代码,先编译一下,然后运行小规模的正确性测试 。如果通过了,我再运行完整的性能测试。如果性能没提升,我就看看 Profiler 的输出,看看瓶颈到底在哪。”

拥有了这些能力后,AVO Agent 的工作模式不再是“生成一次就结束”,而是 开启了一个自主的、多步的“编辑-评估-诊断”闭环 。在这个闭环中,Agent 可以进行如下操作:

  • 规划(Plan): 在修改代码之前,Agent 可以先分析现有版本中最佳内核的性能 Profiler 输出,并结合中的硬件知识,制定一个优化计划,比如“我发现在这个 K-block 循环中,寄存器溢出严重,我打算调整寄存器分配策略”。
  • 实施(Implement): Agent 调用代码编辑器,精准地修改 CUDA C++或内联 PTX 代码,实现其计划。
  • 测试(Test): Agent 调用编译器,如果编译失败,它会尝试诊断错误并修正。如果编译成功,它会运行正确性测试。
  • 诊断(Diagnose): 如果性能没有提升,Agent 会重新运行 Profiler, 将新的性能数据与旧的数据进行对比,找出新的瓶颈,并据此调整下一步的优化方向。
  • 提交(Commit): 只有当一轮完整的修改-测试循环,产生了一个正确性通过且性能不低于当前最优版本的新内核时,Agent 才会将其正式提交,成为进化家谱中的新一员 。 ![图 1 现有主流进化搜索(EVO)与 AVO 对比。左侧:传统方法采用固定流程,大模型仅负责单轮生成或预设工作流,采样与评估由框架控制。右侧:AVO 以自主 AI 智能体替代该流程,可在长周期任务中迭代规划、实现、测试与调试,直接调用历史方案、评估工具与持久记忆。此图清晰对比传统 LLM 辅助进化与 AVO 的核心差异,传统框架将 LLM 限定为候选生成器,流程固化;AVO 把智能体升级为变异算子,自主完成全流程。结合论文可知,该架构突破固定 pipeline 限制,让智能体自主查阅资料、迭代调试,是实现 7 天自主优化超越专家内核的关键,证明智能体自主闭环的架构优势。](data:image/svg+xml,%3C%3Fxml version=‘1.0’ encoding=‘UTF-8’%3F%3E%3Csvg width=‘1px’ height=‘1px’ viewBox=‘0 0 1 1’ version=‘1.1’ xmlns=‘http://www.w3.org/2000/svg’ xmlns:xlink=‘http://www.w3.org/1999/xlink’%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=‘none’ stroke-width=‘1’ fill=‘none’ fill-rule=‘evenodd’ fill-opacity=‘0’%3E%3Cg transform=‘translate(-249.000000, -126.000000)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图 1 现有主流进化搜索(EVO)与 AVO 对比。左侧:传统方法采用固定流程,大模型仅负责单轮生成或预设工作流,采样与评估由框架控制。右侧:AVO 以自主 AI 智能体替代该流程,可在长周期任务中迭代规划、实现、测试与调试,直接调用历史方案、评估工具与持久记忆。此图清晰对比传统 LLM 辅助进化与 AVO 的核心差异,传统框架将 LLM 限定为候选生成器,流程固化;AVO 把智能体升级为变异算子,自主完成全流程。结合论文可知,该架构突破固定 pipeline 限制,让智能体自主查阅资料、迭代调试,是实现 7 天自主优化超越专家内核的关键,证明智能体自主闭环的架构优势。

图 1 直观地展示了传统方法与 AVO 的本质区别。

  • 左边是传统的 LLM-in-the-loop 进化流程,LLM 被固定在一个狭窄的生成步骤中。
  • 右边则是 AVO,一个独立的 AI Agent 接管了整个 Vary 操作,拥有了完整的工具链和自主决策能力。

三、 实验验证:7 天超越人类数月的 AI Agent

为了验证 AVO 的威力,作者将其应用于一个公认的“硬骨头”——在 NVIDIA Blackwell B200 GPU 上优化 Multi-Head Attention (MHA)的前向传播内核。这被认为是 AI Infra 领域最具挑战性的优化任务之一。

3.1 实验设置

  • Agent: 论文使用了一个基于前沿 LLM 的通用编码 Agent,没有为 Kernel 优化做任何特殊修改。这个 Agent 被赋予了 Shell、代码编辑器、文件系统和文档检索等标准工具。 它通过维护一个长期的对话历史,来保存整个进化过程中的上下文、推理和中间结果。
  • 硬件与软件: NVIDIA B200 GPU,CUDA 13.1,PyTorch 2.10.0。
  • 基准:
  • cuDNN v9.19.1: NVIDIA 官方闭源库,代表了行业顶尖的优化水平。
    • FlashAttention-4 (FA4): 最新开源的、专为 Blackwell 优化的 Attention 内核。
  • 评估指标: 前向传播的预填充(prefilling)吞吐量(TFLOPS),头维度 128,BF16 精度,在不同的序列长度(4096, 8192, 16384, 32768)和对应的批量大小下进行测试。

3.2 Multi-Head Attention (MHA) 上的突破

经过 7 天不间断的自主进化,AVO Agent 生成了 40 个内核版本。图 3 展示了在因果(Causal)和非因果(Non-Causal)掩码下的性能对比。

![图 3 NVIDIA B200 上多头注意力前向填充吞吐量(TFLOPS),头维度 128、16 个头、BF16 精度;总 token 数固定为 32768,调整批次大小与序列长度。该图展示 AVO 优化的 MHA 内核在不同序列长度的吞吐量,因果场景全面超越 cuDNN 与 FlashAttention-4,最高超 cuDNN3.5%、超 FlashAttention-410.5%。非因果长序列也有稳定提升。数据验证 AVO 在 B200 上的优化效果,证明其自主进化可突破人类专家优化上限,适配不同序列长度的推理场景。](data:image/svg+xml,%3C%3Fxml version=‘1.0’ encoding=‘UTF-8’%3F%3E%3Csvg width=‘1px’ height=‘1px’ viewBox=‘0 0 1 1’ version=‘1.1’ xmlns=‘http://www.w3.org/2000/svg’ xmlns:xlink=‘http://www.w3.org/1999/xlink’%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=‘none’ stroke-width=‘1’ fill=‘none’ fill-rule=‘evenodd’ fill-opacity=‘0’%3E%3Cg transform=‘translate(-249.000000, -126.000000)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图 3 NVIDIA B200 上多头注意力前向填充吞吐量(TFLOPS),头维度 128、16 个头、BF16 精度;总 token 数固定为 32768,调整批次大小与序列长度。该图展示 AVO 优化的 MHA 内核在不同序列长度的吞吐量,因果场景全面超越 cuDNN 与 FlashAttention-4,最高超 cuDNN3.5%、超 FlashAttention-410.5%。非因果长序列也有稳定提升。数据验证 AVO 在 B200 上的优化效果,证明其自主进化可突破人类专家优化上限,适配不同序列长度的推理场景。

  • 因果注意力: AVO 在所有测试配置下都实现了对两个基准的全面超越
  • 相比 cuDNN,性能提升在 0.4%到 3.5%之间;
    • 相比 FA4,提升更是达到了 5.0%到 10.5%。
  • 非因果注意力:
  • 在长序列(>16384)场景下,AVO 相比 cuDNN 仍有 1.8%到 2.4%的稳定提升。
    • 在短序列下,性能则与顶尖基准持平。

这一结果有力地证明了 AVO 的潜力:它 不仅能够追上,甚至能够超越 由人类专家团队经过数月精心打磨的工业级内核。

3.3 Grouped-Query Attention (GQA) 的快速迁移

一个更令人印象深刻的实验是 AVO 的泛化能力。研究者们并没有从头开始为 GQA 进行优化,而是 简单地提示 Agent:“请将我们进化出的最优 MHA 内核,适配到支持 GQA。” 结果,Agent 在短短 30 分钟内自主完成了这一任务,产生了新的 GQA 内核 。下图 3 显示了在 Qwen3 模型常用的两种 GQA 配置(group size 8 和 4)下的性能。

![图 3 NVIDIA B200 上多头注意力前向填充吞吐量(TFLOPS),头维度 128、16 个头、BF16 精度;总 token 数固定为 32768,调整批次大小与序列长度。该图展示 AVO 优化的 MHA 内核在不同序列长度的吞吐量,因果场景全面超越 cuDNN 与 FlashAttention-4,最高超 cuDNN3.5%、超 FlashAttention-410.5%。非因果长序列也有稳定提升。数据验证 AVO 在 B200 上的优化效果,证明其自主进化可突破人类专家优化上限,适配不同序列长度的推理场景。](data:image/svg+xml,%3C%3Fxml version=‘1.0’ encoding=‘UTF-8’%3F%3E%3Csvg width=‘1px’ height=‘1px’ viewBox=‘0 0 1 1’ version=‘1.1’ xmlns=‘http://www.w3.org/2000/svg’ xmlns:xlink=‘http://www.w3.org/1999/xlink’%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=‘none’ stroke-width=‘1’ fill=‘none’ fill-rule=‘evenodd’ fill-opacity=‘0’%3E%3Cg transform=‘translate(-249.000000, -126.000000)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图 3 NVIDIA B200 上多头注意力前向填充吞吐量(TFLOPS),头维度 128、16 个头、BF16 精度;总 token 数固定为 32768,调整批次大小与序列长度。该图展示 AVO 优化的 MHA 内核在不同序列长度的吞吐量,因果场景全面超越 cuDNN 与 FlashAttention-4,最高超 cuDNN3.5%、超 FlashAttention-410.5%。非因果长序列也有稳定提升。数据验证 AVO 在 B200 上的优化效果,证明其自主进化可突破人类专家优化上限,适配不同序列长度的推理场景。

结果显示, AVO 的 GQA 内核同样碾压了所有基准 。在因果 GQA 下,性能最高超越 cuDNN 7.0%,超越 FA4 9.3%。 这充分证明,AVO 在 MHA 进化过程中学到的优化技巧(如寄存器分配、流水线调度),并非针对特定任务的“特技”, 而是具有很强通用性的底层硬件优化策略,能够快速适配到相似但不同的计算模式上。

3.4 进化轨迹的启示

论文还记录了 AVO 在 7 天内 40 个内核版本的进化轨迹,如图 5 所示。

![图 5 因果多头注意力下 AVO 的进化轨迹,AVO 7 天 40 个内核版本的进化轨迹。绿色实线为所有配置的实时最优几何平均吞吐量;绿色圆圈标记创新最优版本;彩色虚线为各序列长度(4k、8k、16k、32k)吞吐量;水平虚线为 cuDNN 与 FlashAttention-4 的几何平均吞吐量。该轨迹显示吞吐量呈阶梯式提升,对应着Agent发现的关键架构级优化。早期版本获大幅增益,后期微调和调度持续优化,40 版后全面超越基线。7 天探索 500 + 优化方向,印证 AVO 长周期自主进化能力。阶梯式提升对应关键架构优化,证明自主迭代可持续挖掘硬件性能,稳定超越人类专家优化的内核。](data:image/svg+xml,%3C%3Fxml version=‘1.0’ encoding=‘UTF-8’%3F%3E%3Csvg width=‘1px’ height=‘1px’ viewBox=‘0 0 1 1’ version=‘1.1’ xmlns=‘http://www.w3.org/2000/svg’ xmlns:xlink=‘http://www.w3.org/1999/xlink’%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=‘none’ stroke-width=‘1’ fill=‘none’ fill-rule=‘evenodd’ fill-opacity=‘0’%3E%3Cg transform=‘translate(-249.000000, -126.000000)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图 5 因果多头注意力下 AVO 的进化轨迹,AVO 7 天 40 个内核版本的进化轨迹。绿色实线为所有配置的实时最优几何平均吞吐量;绿色圆圈标记创新最优版本;彩色虚线为各序列长度(4k、8k、16k、32k)吞吐量;水平虚线为 cuDNN 与 FlashAttention-4 的几何平均吞吐量。该轨迹显示吞吐量呈阶梯式提升,对应着Agent发现的关键架构级优化。早期版本获大幅增益,后期微调和调度持续优化,40 版后全面超越基线。7 天探索 500 + 优化方向,印证 AVO 长周期自主进化能力。阶梯式提升对应关键架构优化,证明自主迭代可持续挖掘硬件性能,稳定超越人类专家优化的内核。

这条轨迹揭示了 AVO 工作的内在规律。

  • 巨大的探索规模: 40 个提交版本,只是 Agent 内部探索的冰山一角。在 7 天里,它总共 尝试了超过 500 个优化方向,其中大多数因正确性失败、性能回退或分析后放弃而未被提交 。这种高强度的探索,远超人类工程师所能承受的范围。
  • 阶梯式而非渐进式提升: 性能提升并非平滑的曲线,而是呈现明显的阶梯状。最大的几次性能跳跃(图中绿色圆圈标记处),分别对应着 Agent 发现的关键架构级优化,例如引入 QK-PV GEMM 交织、重构单次 Softmax 计算、分支消除的累加器重缩放等。
  • 边际效应递减: 早期版本(v1-v20)实现了最大的绝对性能提升,弥补了与 baseline 的差距。 后期版本(v21-v40)则通过越来越精细的微调,如周期级指令调度、寄存器资源再平衡,持续地、一点点地榨取最后的性能余量。 ![图 6 非因果多头注意力下,AVO7 天 40 个内核版本的进化轨迹。绿色实线为所有配置的实时最优几何平均吞吐量;绿色圆圈标记创新最优版本;彩色虚线为各序列长度(4k、8k、16k、32k)吞吐量;水平虚线为 cuDNN 与 FlashAttention-4 的几何平均吞吐量。非因果场景进化轨迹同样呈阶梯提升,后期逐步超越基线,长序列增益更明显。与因果场景对比,验证 AVO 可适配不同掩码机制,自主调整优化策略。轨迹证明自主闭环进化在非因果场景同样有效,持续突破性能瓶颈,印证方法的通用性。](data:image/svg+xml,%3C%3Fxml version=‘1.0’ encoding=‘UTF-8’%3F%3E%3Csvg width=‘1px’ height=‘1px’ viewBox=‘0 0 1 1’ version=‘1.1’ xmlns=‘http://www.w3.org/2000/svg’ xmlns:xlink=‘http://www.w3.org/1999/xlink’%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=‘none’ stroke-width=‘1’ fill=‘none’ fill-rule=‘evenodd’ fill-opacity=‘0’%3E%3Cg transform=‘translate(-249.000000, -126.000000)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图 6 非因果多头注意力下,AVO7 天 40 个内核版本的进化轨迹。绿色实线为所有配置的实时最优几何平均吞吐量;绿色圆圈标记创新最优版本;彩色虚线为各序列长度(4k、8k、16k、32k)吞吐量;水平虚线为 cuDNN 与 FlashAttention-4 的几何平均吞吐量。非因果场景进化轨迹同样呈阶梯提升,后期逐步超越基线,长序列增益更明显。与因果场景对比,验证 AVO 可适配不同掩码机制,自主调整优化策略。轨迹证明自主闭环进化在非因果场景同样有效,持续突破性能瓶颈,印证方法的通用性。

四、 深入硬件:AVO 发现了哪些“鬼斧神工”的优化?

AVO 的惊人之处,不仅在于它能找到优化,更在于它找到的优化是如此深入硬件,以至于人类专家都需要反复推敲。 论文详细分析了三个代表性的优化案例 ,让我们得以一窥这位“AI 工程师”的思维深度。

![表 1: AVO发现的关键优化及其效果。该表汇总无分支累加器重缩放、校正 / MMA 流水线重叠、 warp 组寄存器重平衡三类核心优化,呈现因果与非因果注意力下的吞吐量增益。数据显示无分支优化在非因果场景提升 8.1%,是单次最大优化。分析表明优化均针对硬件同步、流水线调度、寄存器分配,证明 AVO 具备硬件级深度推理能力,并非浅层代码修改,验证其微架构优化的有效性与专业性。](data:image/svg+xml,%3C%3Fxml version=‘1.0’ encoding=‘UTF-8’%3F%3E%3Csvg width=‘1px’ height=‘1px’ viewBox=‘0 0 1 1’ version=‘1.1’ xmlns=‘http://www.w3.org/2000/svg’ xmlns:xlink=‘http://www.w3.org/1999/xlink’%3E%3Ctitle%3E%3C/title%3E%3Cg stroke=‘none’ stroke-width=‘1’ fill=‘none’ fill-rule=‘evenodd’ fill-opacity=‘0’%3E%3Cg transform=‘translate(-249.000000, -126.000000)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

表 1: AVO发现的关键优化及其效果。该表汇总无分支累加器重缩放、校正 / MMA 流水线重叠、 warp 组寄存器重平衡三类核心优化,呈现因果与非因果注意力下的吞吐量增益。数据显示无分支优化在非因果场景提升 8.1%,是单次最大优化。分析表明优化均针对硬件同步、流水线调度、寄存器分配,证明 AVO 具备硬件级深度推理能力,并非浅层代码修改,验证其微架构优化的有效性与专业性。

4.1 优化一:分支消除的累加器重缩放

问题诊断: 在 FlashAttention 的在线 Softmax 算法中,每当处理一个新的 Key 块,如果当前行的最大值发生变化,就必须对输出累加器进行缩放。
在 AVO 的 v19 版本中,这由一个条件分支实现。 Agent 通过性能剖析发现,这个分支在每次 K-block 循环中都会引入 Warp 同步开销 ,并阻止使用更轻量级的内存屏障(Memory Fence)。

Agent 的解决方案

在 v20 版本中, Agent 做了一个精妙的改动:将条件分支替换为分支推测(branchless speculation)路径 。它始终计算缩放因子,但使用一个谓词(predicate)来选择,当不需要缩放时,实际乘以 1。这样,所有 Warp 中的线程都执行相同的指令序列,消除了 Warp 发散(Warp Divergence)。 由于没有了分支,控制流变得简单,Agent 便可以安全地将一个阻塞的内存屏障替换为一个更轻量的非阻塞屏障,从而进一步降低了开销。

效果

这是整个进化过程中单次优化提升最大的一次 ,非因果注意力性能提升了 8.1%,因果注意力也提升了 1.6%。这个例子生动地展示了 Agent 如何将硬件知识(Warp 执行模型、内存屏障)与高级算法(在线 Softmax)相结合,做出超越简单代码转换的深度推理。

4.2 优化二:Correction/MMA 流水线重叠

问题诊断: 在 FA4 式的双 Q-Tile 流水线设计中,Correction Warp(负责输出归一化)必须等待两个 PV GEMM 都完成后才能开始工作。Agent 通过分析发现,这导致了 Correction Warp 在第二个 GEMM 执行期间处于空闲状态。

Agent 的解决方案:

Agent 重构了流水线,让 Correction Warp 能够在第一个 PV GEMM 完成后立即开始工作,将其归一化操作与第二个 PV GEMM 的计算并行执行。这巧妙地将一个串行依赖转化为流水线并行,极大地提高了硬件利用率。

效果

这项优化为非因果和因果注意力分别带来了 1.1%和 0.4%的性能提升。 它展示了 Agent 对复杂硬件流水线结构的深刻理解,以及通过重新组织任务依赖来消除性能瓶颈的能力。

4.3 优化三:跨 Warp 组的寄存器重平衡

问题诊断: 在 Blackwell 架构中,每个流多处理器(SM)为所有 Warp 组提供固定数量的寄存器(2048 个)。在 v32 版本中,寄存器分配策略(192 给 Softmax Warps,80 给 Correction Warps,48 给其他)导致 Correction Warp 组发生寄存器溢出(spilling),频繁访问速度慢得多的本地内存,成为性能瓶颈。

Agent 的解决方案

Agent 通过分析剖析器的性能计数器,精准定位到 Correction Warp 组的溢出问题 。随后,它做出了一个全局性的资源调度决策:从相对空闲的 Softmax Warp 组“借”了 8 个寄存器,分别分配给 Correction Warp 组和其他 Warp 组,最终形成 184/88/56 的分配。这保证了 Correction Warp 在执行关键路径时,能将更多中间值保存在高速寄存器中。

效果

这项优化为非因果注意力带来了 2.1%的性能提升,再次证明了 Agent 不仅能看到指令级瓶颈,还能在更高层面的资源管理上进行决策。


这些优化案例共同揭示了一个事实: AVO Agent 在进行优化时,并非简单地进行“暴力尝试”。 它的每一次成功,都伴随着对硬件微架构、指令调度、内存同步和资源分配的深刻理解和联合推理

这种深度和广度,是传统自动化方法难以企及的。

五、 相关工作与 AVO 的定位

为了更好地理解 AVO 的创新,我们需要将其置于更广阔的学术背景下。论文清晰地梳理了 AVO 与现有工作的关系,主要体现在以下几个方面:

范式类别代表工作AVO 的突破性改进
LLM-Enhanced Evolutionary SearchFunSearch、AlphaEvolve将 LLM 从被动的“代码生成器”升级为自主的“变异算子”,赋予 Agent 全流程决策权,而非嵌入固定框架中。
LLM-based Agents for Software EngineeringSWE-Agent、OpenHands首次将通用软件工程 Agent 的能力系统化、形式化引入进化搜索,提出并定义“Agentic Variation Operator”为进化算法的一等公民。
Auto-Differentiable OptimizationTTT-Discover放弃依赖梯度更新与模型权重调整,转而通过 Agent 的环境交互、长期记忆与测试时深度探索实现策略优化。

可以说, AVO 融合了进化算法的框架、LLM Agent 的自主性和硬件领域专家的深度知识 ,创造了一种全新的自动化优化范式。 它不仅是在一个已有技术上做增量改进,更是从根本上重新定义了“如何利用 AI 进行代码优化”这个问题。

总结与展望:迈向自主优化的未来

AVO 的诞生,标志着我们在“自动化”这条路上又迈出了坚实的一步。它向我们展示了,一个拥有规划、记忆和工具调用能力的 AI Agent,可以独立完成一项曾经被认为只能由人类顶尖专家完成的、需要数周甚至数月的高强度工程优化任务。 它不仅找到了超越现有最佳实践的优化方案,而且其过程本身——通过自主查阅文档、分析性能数据、迭代式修改代码—— 已经非常接近人类工程师的工作模式。

这篇论文的意义远不止于在 GPU 上获得了几个百分点的性能提升。它提出了一个全新的、具有通用性的优化范式——Agentic Variation Operator。这意味着, AVO 的潜力并不仅限于 Attention Kernel。从理论上讲,任何需要深度、迭代式优化的领域 ,例如:

  • 编译器优化 :自动搜索更优的指令调度或寄存器分配策略。
  • 芯片设计 :自动探索物理设计中的布局布线方案。
  • 科学计算:为特定物理模拟问题自动生成和优化高性能计算代码。

都可能受益于 AVO 的思路。当然,AVO 目前也面临一些挑战。例如:

  • 其对计算资源和 LLM 推理成本的消耗不容小觑;
  • Agent 的“自我监督”机制(当探索停滞时的干预)仍有进一步提升空间;
  • 如何将 AVO 与更复杂的、多群体的进化策略(如 MAP-Elites)结合,也是未来值得探索的方向。

但无论如何,AVO 为我们描绘了一个充满希望的未来:在不久的将来,AI 可能不再仅仅是人类工程师的工具,而是与我们并肩作战的、能够独立探索技术前沿的同事和伙伴。 它们不知疲倦地翻阅手册、反复试验、深度思考,最终攻克那些我们人类引以为傲的技术高峰。这或许,就是 AI for Science 和 AI for Engineering 的真正未来。

相关推荐

交流加群请在 NeuralTalk 公众号后台回复:加群

GPU · 目录

继续滑动看下一个

NeuralTalk

向上滑动看下一个