FlashDecode：Decode 阶段的 Attention 并行化改造

发布时间：2026/5/23 22:12:43

本文基于昇腾CANN和昇腾NPU围绕 ops-transformer 仓库的相关技术展开。FlashDecode 解决了 Decode 阶段的一个结构性浪费每个 Decode Step 只产生 1 个新 Token但 Attention 计算仍然要走完整的 QK^T 路径。FlashDecode 在 CANN 上做了一个关键优化——把多个 Decode Step 的 Attention 计算合并到一起让 NPU 的 Cube Unit 跑满。Decode 阶段 Attention 的痛点# 标准 Decode Attention——每步只算 1 个 Queryimporttorchimporttorch.nn.functionalasFdefdecode_attention(q,k_cache,v_cache,step_idx): q: [1, num_heads, 1, head_dim] —— 当前步的 Query k_cache: [1, num_heads, L, head_dim] —— L 是已缓存长度 v_cache: [1, num_heads, L, head_dim] step_idx: 当前是第几步 # Q: [1, h, 1, d] × K^T: [1, h, d, L] → score: [1, h, 1, L]scoretorch.matmul(q,k_cache.transpose(-2,-1))scorescore/(head_dim**0.5)attnF.softmax(score,dim-1)# attn: [1, h, 1, L] × V: [1, h, L, d] → [1, h, 1, d]outtorch.matmul(attn,v_cache)returnout# 问题MQ 序列长度1 → Cube 利用率只有 15-25%# 瓶颈在 ScoreV 这一步——Matrix-Vector 而不是 Matrix-Matrix每步 M1NPU 的 Cube Unit 大部分时间在等数据搬运。FlashDecode 的思路很简单把 K 缓存切块让多个 Query 并行查。FlashDecode 的块式 Attention# FlashDecode按块读取 KV Cache多个 Query Step 并行计算defflash_decode_attention(q_block,k_cache,v_cache,block_size64): q_block: [num_steps, num_heads, 1, head_dim] —— 合并多个 Decode Step 的 Q k_cache: [num_heads, total_len, head_dim] v_cache: [num_heads, total_len, head_dim] block_size: 每次从 Cache 读几组 KV num_stepsq_block.shape[0]num_headsq_block.shape[1]dq_block.shape[-1]total_lenk_cache.shape[1]# 输出累积器outputtorch.zeros(num_steps,num_heads,1,d)# 分块读取 KV Cache——NPU 的 L1 Buffer 只能装 block_size 个 KVforblock_startinrange(0,total_len,block_size):block_endmin(block_startblock_size,total_len)k_blockk_cache[:,block_start:block_end,:]# [h, bs, d]v_blockv_cache[:,block_start:block_end,:]# [h, bs, d]# Q 块 × K 块^T——现在 Mnum_steps, Kbs# Cube 实际算的是 [num_steps, d] × [d, bs] [num_steps, bs]# Mnum_steps 可以到 32-64Cube 利用率 70%forhinrange(num_heads):q_hq_block[:,h,0,:]# [num_steps, d]k_hk_block[h]# [bs, d]# 批量的 Score 计算——从 Vector 变 Matrixscore_htorch.matmul(q_h,k_h.transpose(-1,-2))# [num_steps, bs]score_hscore_h/(d**0.5)# Online-Softmax避免整段 Softmax 的显存开销local_maxscore_h.max(dim-1,keepdimTrue).values local_exptorch.exp(score_h-local_max)local_sumlocal_exp.sum(dim-1,keepdimTrue)local_outtorch.matmul(local_exp,v_block[h])# [num_steps, d]# 合并到输出——实际生产用 rescale 累加而不是简单加法output[:,h,0,:]local_out.squeeze(1)returnoutputFlashDecode 把 M1 的 Matrix-Vector 变成了 Mnum_steps 的 Matrix-Matrix。步子越大利用率越高但不能超过 64——超过了注意力分布就开始分散精度会掉。CANN 上的 FlashDecode 融合// FlashDecode 在 Ascend C 上的实现——融合了 Score Softmax 累加classFlashDecodeKernel:publicAscendC::Kernel{public:__aicore__inlineFlashDecodeKernel(){}__aicore__inlinevoidProcess()override{// 从 Global Memory 搬 Q 到 L1 BufferAscendC::LocalTensorfloatq_localAscendC::LocalAllocfloat(num_steps*head_dim);AscendC::DataCopy(q_local,gm_q,num_steps*head_dim);// 逐块处理 KV Cachefor(intblock0;blocknum_blocks;block){// 搬 K 块到 L1AscendC::LocalTensorfloatk_localAscendC::LocalAllocfloat(block_size*head_dim);AscendC::DataCopy(k_local,gm_kblock_offset,block_size*head_dim);// Cube 做 QK^T——走 MMA 指令AscendC::LocalTensorfloatscore_localAscendC::LocalAllocfloat(num_steps*block_size);// 这里触发 Cube Unit 的矩阵乘法AscendC::MatMul(score_local,q_local,k_local,AscendC::CUBE_MATRIX_TYPE::TRAN_A);// 直接在 L1 上做 Scale Softmax——不用回显存AscendC::Mul(score_local,score_local,inv_scale);AscendC::Exp(score_local,score_local);// 逐元素 ExpAscendC::ReduceSum(row_sum,score_local,1);// 逐行求和// 读 V 块算加权和AscendC::LocalTensorfloatv_localAscendC::LocalAllocfloat(block_size*head_dim);AscendC::DataCopy(v_local,gm_vblock_offset,block_size*head_dim);// Score (归一化后) V——仍在 L1 完成AscendC::MatMul(partial_out,score_local,v_local);// 累加输出——走了两轮再写回 Global MemoryAscendC::Add(output_local,output_local,partial_out);}// 最终写回AscendC::DataCopy(gm_out,output_local,num_steps*head_dim);}};实测下来 FlashDecode 在 Decode 阶段能把 GPU 的利用率从 15% 拉到 52%。每步处理 32 个合并 Query 时收益最高——再多缓存就装不下 K 块了。参考仓库FlashDecode 算子实现Runtime 多流调度

别再只接DO了！光敏电阻模块的AO模拟输出在ESP32上的高级玩法（环境光监测）

解锁光敏电阻AO输出的ESP32高阶应用：从环境光监测到智能联动在智能家居和物联网项目中，环境光监测往往被简化为简单的"开灯/关灯"判断。但当我们把目光投向光敏电阻模块上那个常被忽视的AO（模拟输出）引脚时&#xff0c…

2026/5/23 22:12:43 阅读更多

AI 从 “模仿智能” 到 “重构世界” 的范式跃迁

当参数竞赛的喧嚣落幕，人工智能正迎来颠覆性的范式革命。2026 年，AI 不再局限于数字空间的语言模仿与图像生成，而是通过原生多模态融合、世界模型认知、具身智能落地三大核心突破，实现从 “感知数字” 到 “理解物理”、从 “被动…

2026/5/23 22:11:02 阅读更多

2026数字营销专业学数据分析的职业优势

一、数字营销与数据分析的融合趋势2026年数字营销领域将进一步依赖数据驱动决策。随着消费者行为数字化程度加深，企业需通过数据分析实现个性化营销、动态定价和实时优化。复合型人才需同时掌握营销策略与数据建模能力，以应对跨渠道归因、隐私安全等复杂…

2026/5/23 22:10:42 阅读更多

从Notebook到生产：模型服务化七步落地实战

1. 项目概述：这不是一次“部署上线”，而是一场从实验室到产线的系统性迁移“From Notebook to Production: Running ML in the Real World (Part 4)”——这个标题里藏着一个被无数数据科学家反复咀嚼、又悄悄回避的真相：Jupyter Notebook 从…

2026/5/23 23:05:15 阅读更多

【发动机】基于matlab模拟火花-点火发动机循环采用单区模型和Wiebe热释放定律求解进气压力、排气温度和燃烧分数【含Matlab源码 15556期】

💥💥💥💥💥💥💞💞💞💞💞💞💞💞欢迎来到海神之光博客之家💞💞💞&#x1f49…

2026/5/23 23:04:34 阅读更多

Unity地牢生成插件Edgar Pro：规则驱动的可视化程序化设计

1. 这不是又一个“点几下就出地牢”的玩具插件Edgar Pro 在 Unity 地牢生成生态里是个异类——它不靠炫酷的实时预览骗点击，也不用“一键生成300种随机迷宫”当宣传语。我第一次在客户项目里把它集成进一个 Roguelike 框架时，原计划两天搞定关卡系统&…

2026/5/23 23:04:34 阅读更多

机器学习生产化落地：从Notebook到高韧性的ML服务

1. 项目概述：这不是一次“部署”，而是一场从实验室到产线的系统性迁移“From Notebook to Production: Running ML in the Real World (Part 4)”——这个标题本身就像一句暗号，懂的人一眼就明白：它不是在讲怎么调参、不是在炫模型…

2026/5/23 23:03:53 阅读更多

Unity口型同步实战指南：LipSync语音驱动动画工作流

1. 为什么Unity原生方案永远做不好口型同步——从动画师的抱怨说起我第一次在客户现场听到“你们这嘴型对不上”这句话，是在一个教育类VR项目交付前夜。当时用的是Unity内置的Animation Rigging 手动关键帧驱动，角色说“你好”时下巴像被卡住的机械臂&a…

2026/5/23 23:03:53 阅读更多

Unity与Arduino BLE通信实战：跨平台稳定连接与帧解析

1. 这不是“配对”，而是让Unity真正听懂Arduino发来的蓝牙心跳很多人第一次尝试Unity和Arduino做蓝牙通信时，会卡在“设备搜不到”“连上了但收不到数据”“数据乱码像天书”这三个经典路口。我去年帮一个医疗康复设备团队做手势反馈系统时，就…

2026/5/23 23:03:53 阅读更多

红黑树完全指南：从五条性质到完整插入删除实现

引言在前面的树系列中，我们学习了二叉搜索树（BST）和 AVL 树。AVL 树通过严格的平衡条件（|BF| ≤ 1）保证 O(log n) 的性能，但代价是删除操作可能触发 O(log n) 次旋转。红黑树（Red-Black Tree&am…

2026/5/23 0:01:37 阅读更多

黎曼猜想：哲学 × 数学思维范式全链条

黎曼猜想：哲学数学思维范式全链条华夏之光永存｜七大数学猜想思维范式全链条第二篇开篇黎曼猜想被公认为数学史上最伟大的未解难题。希尔伯特曾说：“如果我沉睡百年后醒来，第一个问题就是：黎曼猜想证明了吗&…

2026/5/23 0:02:38 阅读更多

在Nodejs后端服务中集成稳定可靠的大模型能力

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Nodejs后端服务中集成稳定可靠的大模型能力应用场景类，针对需要构建智能对话或内容生成功能的后端工程师&#xff0…

2026/5/23 0:03:18 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/23 18:28:52 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/23 18:05:03 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/23 4:55:00 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/23 4:55:00 阅读更多

相关文章

别再只接DO了！光敏电阻模块的AO模拟输出在ESP32上的高级玩法（环境光监测）

AI 从 “模仿智能” 到 “重构世界” 的范式跃迁

2026数字营销专业学数据分析的职业优势

从Notebook到生产：模型服务化七步落地实战

【发动机】基于matlab模拟火花-点火发动机循环采用单区模型和Wiebe热释放定律求解进气压力、排气温度和燃烧分数【含Matlab源码 15556期】

Unity地牢生成插件Edgar Pro：规则驱动的可视化程序化设计

机器学习生产化落地：从Notebook到高韧性的ML服务

Unity口型同步实战指南：LipSync语音驱动动画工作流

Unity与Arduino BLE通信实战：跨平台稳定连接与帧解析

红黑树完全指南：从五条性质到完整插入删除实现

黎曼猜想：哲学 × 数学 思维范式全链条

在Nodejs后端服务中集成稳定可靠的大模型能力

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

黎曼猜想：哲学 × 数学思维范式全链条

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)