2026年3月30日 19:05
在当今的大模型时代,高性能 GPU 算子(Kernel)是将硬件算力转化为实际吞吐量的核心引擎。无论是支撑 Megatron、vLLM、LMDeploy 等底层系统,还是驱动 AI for Science (AI4S) 的复杂科学计算,高效的算子实现都是释放硬件潜能的重中之重。然而,尽管大模型的编程能力日益强大,但让其自主生成高性能算子并稳定应用于真实生产环境,仍是一个未被全面攻克的行业难题。
在这一背景下,上海人工智能实验室联合沐曦(MetaX)发布了 高性能 GPU 算子生成 系统 —— Kernel-Smith 。Kernel-Smith 创新性地将“稳定评估驱动的进化智能体”与“面向进化的后训练范式”深度融合,依托 Intern-S1-Pro 的基座能力进行深度定制化训练,让大模型真正化身为“算子优化大师”。Kernel-Smith 自动生成的高性能算子已在实际场景中得到应用:不仅加速了 DeepSeek 新架构 Engram,并合入 DLBlas;还落地主流生产级推理引擎 SGLang 和 LMDeploy,实现了大模型自动生成算子从实验室受控评估,到前沿模型研发与生产级部署的双重跨越。
🌟 亮点速览:
- 首创稳定评估驱动的进化智能体: 克服评测噪声,支持 NVIDIA Triton 与 MetaX Maca 双后端,保障算子搜索的可靠性。
- 提出面向进化的后训练范式(Post-training): 摒弃传统的多轮反馈迭代路线,将长周期的进化轨迹转化为步进式的训练信号,让模型成为最强“局部优化器”。
- 显著性能优势 : Kernel-Smith-235B-RL 在 KernelBench 上取得 SOTA,平均加速比超越 Gemini-3.0-pro 与 Claude-4.6-opus 等顶尖闭源模型。
- 打通落地闭环: 生成的代码已成功合入 SGLang、LMDeploy 等主流开源推理引擎。
技术报告链接:
https://github.com/InternLM/Kernel-Smith/blob/main/Kernel-Smith.pdf
在线体验链接:(文末点击阅读原文可直达)
https://chat.intern-ai.org.cn/kernel-smith
’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
在线体验页面
两大创新设计,破解大模型算子生成难题
当前的算子开发高度依赖工程师的经验。一个高效的算子往往需要在众多融合模式、Tiling 策略等实现方案中反复搜索与调试,而现有基于 LLM 的算子生成系统,多依赖多轮对话或基于历史的 Agent 循环,这也带来了两大挑战:
- 路径依赖与试错成本高: 传统的 Debug 过程容易让模型“锚定”在早期的错误决策上,限制了探索的多样性。
- “写对”不等于“跑得快”: 功能上的正确性与极致的性能是两种完全不同的能力。模型不仅需要一次性生成正确的代码,更需要具备在测试阶段通过持续迭代,不断提升算子性能的能力。
为了解决这些问题,研究团队创新地提出了 一个统一的进化智能体与强化训练框架 。
核心 设计 一:构建稳定评估驱动的进化智能体
进化搜索天然适合算子优化,因为它可以通过维护一个候选程序池,在多轮迭代中不断累积性能增益。然而,这一过程对“评测方差”极其敏感:如果 GPU 运行时间测量存在噪声,智能体可能会误删极具潜力的算子,或者保留次优解,这种错误会在代际之间不断放大。
为此,Kernel-Smith 在智能体设计上 将“评测稳定性”放在首位 。通过固定计算图、重复测量以及异常值剔除等机制,大幅抑制了计时噪声,确保了进化搜索动态的可靠性。同时,研究团队还为 NVIDIA Triton 和 MetaX Maca GPU 构建了专属的后端评估服务,提供编译、正确性和加速比的结构化执行反馈。
核心 设计 二:化长为短,面向进化的后训练 策略
在模型训练层面,Kernel-Smith 将训练定义为进化循环中的“局部优化器(Local Improver)” 。
具体而言,研究团队将长周期的进化轨迹转化为以“步骤”为中心的监督与强化学习信号。算法只保留那些“在保证正确性的前提下,带来了高收益性能提升”的修改步骤。
这种过滤策略相当于一种 轨迹压缩 :模型不需要去模仿那些冗余的中间过渡或捷径,而是专注于学习那些对最终加速贡献最大的“原子级改进”。在 SFT 和 RL 阶段应用这一原则,使得 Kernel-Smith 不仅提升了单步修改的代码质量,更大幅提高了进化搜索中性能增益的复合增长率。
显著性能优势,超越顶尖闭源模型
得益于上述两大核心设计,Kernel-Smith 在实战中展现出了显著的性能优势。在统一的进化智能体协议下,Kernel-Smith-235B-RL 在 KernelBench(Nvidia Triton 后端)上实现了整体性能的 SOTA。在严格保证功能正确性的前提下,其平均加速比不仅优于所有开源基线模型,还超越了 Gemini-3.0-pro 和 Claude-4.6-opus 等顶尖闭源大模型。
’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
KernelBench-Triton 评测结果
更重要的是,评测曲线显示,Kernel-Smith-235B-RL 的平均得分增长曲线在整个搜索过程中始终处于领先地位(如下图所示),这充分证明了该模型能够最有效地利用测试时算力(Test-time Compute)实现性能跃升。
’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
不同模型使用同样的 KernelSmith Agent Framework,在 KernelBench-Triton 上的迭代增长曲线图
在 MetaX MACA 后端的测试中,Kernel-Smith 同样表现出色。研究团队在四类常用算子上对比了不同模型生成高性能 MACA 算子的能力,结果显示,Kernel-Smith-MACA-30B 的平均加速比超过了 DeepSeek-v3.2 和 Qwen3-235B-2507 等大参数量的开源模型,而 Kernel-Smith-MACA-235B 取得了进一步性能提升,验证了 Kernel-Smith 框架支持异构平台的能力。
’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
MetaX MACA 平台算子性能优化任务评测结果
走出实验室,赋能前沿创新与生产级应用
Kernel-Smith 生成的高性能优化算子不仅成功赋能前沿架构创新,加速了 DeepSeek 新架构 Engram 并合入 DLBlas 开源算子库 ;更重要的是,它已顺利落地主流生产级推理引擎,分别为 SGLang 优化了 FlashAttention 后端的 normal_decode_set_metadata 算子,并为 LMDeploy 优化了 DeepSeek MoE Routing 算子,真正实现了大模型自动生成算子从实验室受控评估,到前沿模型研发与生产级部署的双重跨越。
相关 Pull Request 链接:
https://github.com/DeepLink-org/DLBlas/pull/102
在 NV-H200 硬件环境下的算子隔离评测中,Kernel-Smith 展现出显著的 Test-Time Scaling 效应:随着演化迭代的深入,算子性能实现持续增长。
’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
算子进化迭代曲线图
在主流推理引擎的实际落地中,Kernel-Smith 自动生成的算子为 SGLang 和 LMDeploy 分别带来了 4.78x 和 1.36x 的真实加速收益。在 DeepSeek Engram 复杂场景的深度探索中,模型成功跨越局部最优解,触发了从 5 倍到 12 倍以上的突破性性能跃升,最终达到 14.59x 加速。
’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
算子隔离评测结果
同时,研究团队在社区率先将自动化算子评测扩展至端到端模型吞吐。Kernel-Smith 生成的算子不仅稳定提升了 LMDeploy 的端到端吞吐( 最高约 3% ),还可靠地降低了 SGLang 的真实服务延迟。这验证了生成代码在复杂系统中的鲁棒性,也为自动化算子在生产级引擎中的端到端集成提供了可行的实践参考。
’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
LMDeploy 端到端模型吞吐评测
往期推荐
- 让AI自己“炼数据”!DataChef开源:用强化学习自动生成LLM数据配方
- AutoSkill:让 AI 从“听令行事”进化为持续成长的数字员工
- 具身强化学习框架RLightning发布,一套代码实现从单机开发到规模化验证,加速物理智能算法迭代
点击下方链接,探索书生大模型更多有趣、有用的功能!
https://chat.intern-ai.org.cn/
点击下方卡片,关注我们,获取书生大模型最新相关资讯。
欢迎投递技术稿件:加微信 breezy0101
阅读原文
继续滑动看下一个
书生Intern
向上滑动看下一个