GE 和 Runtime：不是上下游，是协同决策

发布时间：2026/5/24 6:03:44

你以为 GE 做完融合决策交给 Runtime 执行就行了其实它们是一个协同系统——GE 决定融什么Runtime 决定怎么跑但 GE 的融合决策必须考虑 Runtime 的调度约束Runtime 的调度策略也必须参考 GE 的融合结果。这一篇把 GE 和 Runtime 的协同工作机制拆开来说说四个被误解的设计决策。GE 不是图优化器是融合决策引擎很多人以为 GEGraph Engine就是做图优化的——算子融合、内存优化、计算图重写。这些都没错但不是 GE 的核心。GE 的核心是融合决策——根据算子的 shape、dtype、tiling 参数决定哪些算子可以融合、以什么顺序融合、融合后的算子怎么调度。这个决策过程不是固定的是可学习的——你可以读 GE 的融合规则甚至写自定义的融合 pass。# GE 的融合决策过程简化版# 来源ge/frontend/fusion_pass/flash_attention_fusion_pass.cc# 决策1输入 dtype 检查必须是 float16# if (input_dtype ! DT_FLOAT16) return false;# 决策2seq_len 检查必须是 2 的幂次方# int seq_len input_shape[2];# if ((seq_len (seq_len - 1)) ! 0) return false;# 决策3Q、K、V 的 seq_len 必须相同# if (q_shape[2] ! k_shape[2] || q_shape[2] ! v_shape[2]) return false;# 决策4必须开启 causal mask训练场景# if (!is_causal) return false;# 验证查看 GE 的融合决策日志importos os.environ[ASCEND_GLOBAL_LOG_LEVEL]3os.environ[GE_LOG_TO_STDOUT]1importtorch Qtorch.randn(4,32,2048,64,dtypetorch.float16).npu()Ktorch.randn(4,32,2048,64,dtypetorch.float16).npu()Vtorch.randn(4,32,2048,64,dtypetorch.float16).npu()outputtorch.nn.functional.scaled_dot_product_attention(Q,K,V,is_causalTrue)torch.npu.synchronize()# 在日志输出中搜索 FlashAttentionFusionPass# 如果看到 FlashAttentionFusionPass: success说明 GE 的融合决策成功了误解GE 是图优化器做的事情就是算子融合、内存优化。纠正GE 的核心是融合决策——根据算子的 shape/dtype/tiling决定哪些算子可以融合、以什么顺序融合。这个决策过程是可学习的。Runtime 不是任务调度器是overlap 协调器很多人以为 Runtime 就是调度算子执行的——哪个算子先执行、哪个后执行、哪些可以并行。这些都没错但不是 Runtime 的核心。Runtime 的核心是overlap——让数据搬运和计算重叠起来。具体来说当前 tile 的计算在进行的时候Runtime 已经把下一个 tile 的数据从 HBM 搬到 UB 上了。这样计算单元就不会停下来等数据。# Runtime 的 overlap 机制简化版# 来源runtime/core/mem_manager/overlap_manager.cc# overlap 的核心逻辑# 1. 把算子按 tile 切分# 2. 当前 tile 在计算的时候预取下一个 tile 的数据# 3. 计算完当前 tile立刻开始计算下一个 tile数据已经就位# 验证用 Profiler 抓 trace看计算 kernel 和数据搬运 kernel 的时间轴fromtorch_npu.profilerimportprofile,ProfilerActivity Qtorch.randn(4,32,4096,64,dtypetorch.float16).npu()Ktorch.randn(4,32,4096,64,dtypetorch.float16).npu()Vtorch.randn(4,32,4096,64,dtypetorch.float16).npu()withprofile(activities[ProfilerActivity.NPU],export_nameruntime_overlap.json):outputtorch.nn.functional.scaled_dot_product_attention(Q,K,V,is_causalTrue)torch.npu.synchronize()# 分析 runtime_overlap.json# - 如果计算 kernelFlashAttentionKernel和数据搬运 kernelMemcpyH2D有重叠# → Runtime 的 overlap 生效了 ✅# - 如果计算 kernel 和数据搬运 kernel 完全串行# → Runtime 的 overlap 未生效 ❌# 对比 overlap 开启/关闭的性能os.environ[ASCEND_OVERLAP_DISABLE]1# 关闭 overlaptorch.npu.synchronize()starttime.time()for_inrange(50):outputtorch.nn.functional.scaled_dot_product_attention(Q,K,V,is_causalTrue)torch.npu.synchronize()endtime.time()print(foverlap 关闭后 50 次耗时:{end-start:.2f}s)os.environ[ASCEND_OVERLAP_DISABLE]0# 开启 overlaptorch.npu.synchronize()starttime.time()for_inrange(50):outputtorch.nn.functional.scaled_dot_product_attention(Q,K,V,is_causalTrue)torch.npu.synchronize()endtime.time()print(foverlap 开启后 50 次耗时:{end-start:.2f}s)误解Runtime 是任务调度器决定算子执行顺序。纠正Runtime 的核心是 overlap——让数据搬运和计算并行减少计算单元等待数据的时间。GE 和 Runtime 不是上下游是协同决策很多人以为 GE 做完融合决策生成融合后的算子交给 Runtime 执行就行了。这个理解太浅了。GE 的融合决策必须考虑 Runtime 的调度约束。比如如果一个算子融合后太大tile 数太多Runtime 可能无法有效地做 overlap因为内存不够存两个 tile 的数据。GE 在决策融合的时候必须参考 Runtime 的 overlap 可行性。反过来Runtime 的调度策略也必须参考 GE 的融合结果。比如融合后的算子更适合 tile 级 pipeline因为一个融合算子内部可以切分 tileRuntime 会根据融合算子的特性调整调度策略。# GE 和 Runtime 的协同决策简化版# 场景GE 在决策是否为 FlashAttention 做融合时会参考 Runtime 的 overlap 可行性# GE 的考虑# 1. 融合后的 FlashAttentionKernel 有多大tile 数 × 每个 tile 的 UB 占用# 2. Runtime 能不能有效地做 overlapUB 够不够存两个 tile 的数据# 3. 如果 UB 不够GE 可能不会触发融合或者选择一个更小的 tile 大小# Runtime 的考虑# 1. 这个算子是不是融合算子融合算子更适合 tile 级 pipeline# 2. 融合算子的 tile 大小是多少决定预取策略# 3. 根据融合算子的特性调整调度策略比如更多的 pipeline 级# 验证对比不同 tile 大小下GE 是否触发融合 Runtime 的 overlap 效率importtorchimporttimefortile_sizein[64,128,256,512]:Qtorch.randn(4,32,4096,tile_size,dtypetorch.float16).npu()Ktorch.randn(4,32,4096,tile_size,dtypetorch.float16).npu()Vtorch.randn(4,32,4096,tile_size,dtypetorch.float16).npu()# 查看 GE 日志看这个 tile_size 下是否触发了 FlashAttentionFusionoutputtorch.nn.functional.scaled_dot_product_attention(Q,K,V,is_causalTrue)torch.npu.synchronize()# 计时starttime.time()for_inrange(100):outputtorch.nn.functional.scaled_dot_product_attention(Q,K,V,is_causalTrue)torch.npu.synchronize()endtime.time()print(ftile_size{tile_size}, 100次耗时:{end-start:.2f}s)# 用 npu-smi 查看 Compute Cube 利用率# 如果利用率 80%说明 Runtime 的 overlap 做得好计算单元没怎么等数据# 如果利用率 50%说明计算单元经常在等数据overlap 没生效或 tile 大小不合适误解GE 和 Runtime 是上下游关系——GE 做完决策Runtime 执行就行。纠正GE 和 Runtime 是协同决策关系——GE 的融合决策要考虑 Runtime 的调度约束Runtime 的调度策略要参考 GE 的融合结果。ops-transformer 不是被动适应是主动配合很多人以为 ops-transformer 的算子只要实现功能就行GE 和 Runtime 会自动优化。这个理解是错的。ops-transformer 的算子设计必须主动配合GE 的融合规则和 Runtime 的调度策略。具体来说暴露 tiling 参数让 GE 在决策融合的时候知道这个算子支持什么样的 tile 大小支持 causal mask让 GE 在匹配 FlashAttentionFusionPass 的时候知道这个算子支持 causal mask优化 UB 使用让 Runtime 在做 overlap 的时候有足够的内存预取下一个 tile 的数据# ops-transformer 的算子设计主动配合 GE 和 Runtime# 来源ops-transformer/src/ops_transformer/flash_attention/flash_attention_kernel.cpp# 主动配合1暴露 tiling 参数让 GE 知道这个算子支持什么 tile 大小# void FlashAttentionKernel(..., int tiling) { ... }# 主动配合2支持 causal mask让 GE 匹配 FlashAttentionFusionPass# if (causal) { ... // 在 softmax 之前把 mask 位置设为 -inf ... }# 主动配合3优化 UB 使用让 Runtime 有足够的空间做 overlap# - 每个 tile 的 UB 占用尽量小# - 预留足够的 UB 空间给下一个 tile 的数据预取# 验证读 ops-transformer 的源码看它是怎么主动配合 GE 和 Runtime 的importsubprocess# 查看 tiling 参数的定义resultsubprocess.run([grep,-r,tiling,ops-transformer/src/ops_transformer/flash_attention/],capture_outputTrue,textTrue)print(tiling 参数定义:)print(result.stdout)# 查看 causal mask 的实现resultsubprocess.run([grep,-r,causal,ops-transformer/src/ops_transformer/flash_attention/],capture_outputTrue,textTrue)print(causal mask 实现:)print(result.stdout)# 查看 UB 使用的优化resultsubprocess.run([grep,-r,UB,ops-transformer/src/ops_transformer/flash_attention/],capture_outputTrue,textTrue)print(UB 使用优化:)print(result.stdout)误解ops-transformer 的算子只要实现功能就行GE 和 Runtime 会自动优化。纠正ops-transformer 的算子设计必须主动配合 GE 和 Runtime——暴露 tiling 参数、支持 causal mask、优化 UB 使用。相关仓库https://atomgit.com/cann/ops-transformerhttps://atomgit.com/cann/gehttps://atomgit.com/cann/runtime

告别Python踩坑：用ioapi的m3mask工具5分钟搞定CMAQ-ISAM区域文件（附int转float关键一步）

高效生成CMAQ-ISAM区域文件的ioapi实战指南当你在环境建模领域深耕多年，突然发现Python脚本生成的CMAQ-MASK文件无法被识别时，那种挫败感我深有体会。去年参与京津冀空气质量模拟项目时，我也曾在这个坑里挣扎了两天。直到发现ioapi工具链中的…

2026/5/24 6:03:03 阅读更多

Claude Code-入门篇-Claude-Code基础与环境配置

第1篇：入门篇 —— Claude Code 基础与环境配置系列导读：这是「Claude Code 全栈开发实战教程」的第一篇。本系列的目标只有一个：让你用自然语言驱动 AI，完成从需求到交付的完整软件工程流程。学完本篇，你将完成 Clau…

2026/5/24 6:02:43 阅读更多

ArcGIS新手避坑指南：从打不开.adf文件到批量裁剪，这10个问题你肯定遇到过

ArcGIS新手避坑实战手册：从数据加载到高级处理的10个关键突破点第一次打开ArcGIS时，那个充满按钮和菜单的界面就像面对一架波音747的驾驶舱——每个开关都看起来很重要，但完全不知道从哪里开始。作为从业15年的GIS培训师，我见过太…

2026/5/24 6:02:43 阅读更多

机器学习赋能密度泛函理论：构建半局域交换关联泛函攻克强关联体系

1. 项目概述与核心思路在计算凝聚态物理和量子化学领域，密度泛函理论（Density Functional Theory, DFT）无疑是过去几十年里最成功的“第一性原理”计算方法。它的核心魅力在于，通过Hohenberg-Kohn定理，将描述N个相互作…

2026/5/24 6:49:10 阅读更多

基于群论的双曲空间统计建模：从莫比乌斯分布到高效算法

1. 项目概述：为什么我们需要双曲空间与群论？如果你处理过社交网络、知识图谱或者自然语言中的词汇关系，一定对“层次结构”这个词不陌生。想象一下，你要把整个维基百科的词条关系，或者一个公司的组织架构图&#xff0c…

2026/5/24 6:49:10 阅读更多

从零搭建一个疫情数据看板：用Python(pymysql+Flask+ECharts)实战全流程

从零搭建省级数据可视化看板：Python全栈技术实战最近几年，数据可视化在各行各业的应用越来越广泛。无论是企业内部的运营数据监控，还是面向公众的信息展示，一个直观、动态的数据看板都能极大提升信息传达效率。对于Python开发者来…

2026/5/24 6:47:08 阅读更多

基于Hugging Face BART模型构建文本摘要服务：从原理到部署实战

1. 项目概述：从零构建一个可用的文本摘要服务文本摘要，这个听起来有点学术的词，其实离我们很近。想想看，每天面对海量的新闻、报告、论文，甚至冗长的会议纪要，谁不想快速抓住核心要点？这就是文本…

2026/5/24 6:47:08 阅读更多

大模型的底层逻辑：从文字接龙到智能交互，小白也能看懂！

文章深入浅出地解析了大语言模型（LLM）的运作机制，核心在于Transformer架构。通过“文字接龙”游戏般的逐词预测，大模型生成回答。关键在于Tokenizer将文字与数字编码解码，实现人机沟通。大模型无真正记忆，但…

2026/5/24 6:45:47 阅读更多

Atmosphère系统架构深度解析：分层安全模型与模块化设计哲学

Atmosphre系统架构深度解析：分层安全模型与模块化设计哲学【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable Atmosphre作为Nintendo Switch的自定义固件，其核心价值在…

2026/5/24 6:45:06 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/23 4:55:00 阅读更多

相关文章

告别Python踩坑：用ioapi的m3mask工具5分钟搞定CMAQ-ISAM区域文件（附int转float关键一步）

Claude Code-入门篇-Claude-Code基础与环境配置

ArcGIS新手避坑指南：从打不开.adf文件到批量裁剪，这10个问题你肯定遇到过

机器学习赋能密度泛函理论：构建半局域交换关联泛函攻克强关联体系

基于群论的双曲空间统计建模：从莫比乌斯分布到高效算法

从零搭建一个疫情数据看板：用Python(pymysql+Flask+ECharts)实战全流程

基于Hugging Face BART模型构建文本摘要服务：从原理到部署实战

大模型的底层逻辑：从文字接龙到智能交互，小白也能看懂！

Atmosphère系统架构深度解析：分层安全模型与模块化设计哲学

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥