ops-broadcast：Tensor Shape 的自动扩展机制

发布时间：2026/5/22 22:40:02

写 AI 代码时经常遇到这种情况a [4, 256, 256] [256, 256]。两个 Tensor 的形状不同但可以相加——PyTorch 和 NumPy 自动把小 Tensor 扩展到跟大 Tensor 一样的形状。这个机制就是 Broadcast。CANN 的 ops-broadcast 仓库实现了 NPU 上的广播算子。Broadcast 本身不改变数据——它只是让形状不匹配的 Tensor 在执行计算时能被虚拟地扩展到相同大小。Broadcast 为什么存在如果不支持 Broadcast[4,256,256] [256,256]需要手动把[256,256]扩展到[4,256,256]——在内存中复制 4 份。这浪费了 4 倍显存。Broadcast 的做法是计算时让 AI Core 知道第二个 Tensor 在第一个维度上不够时就在该维度上循环使用。不需要实际复制数据——只是遍历地址时多了一次维度映射。Tensor Shape 如何自动扩展Broadcast 的规则从最后一个维度开始对齐如果某个维度的大小是 1 或不匹配沿该维度复制如果某个维度不存在虚拟插入大小为 1 的维度[4,256,256] [256,256]的扩展过程A.shape [4, 256, 256] B.shape [ 256, 256] → 虚拟扩展为 [1, 256, 256] → Broadcast 为 [4, 256, 256]实际执行时不会创建[1,256,256]的物理 Tensor——Vector Unit 在遍历 A 的每个 batch 时重复使用 B 的同一份数据。昇腾NPU如何处理广播计算Broadcast 在 Vector Unit 上执行。对于[4,256,256] [256,256]// Broadcast Add 的 Vector 执行简化__vector__voidbroadcast_add_kernel(...){for(intbatch0;batch4;batch){// B 的地址指针不变——循环使用同一份数据for(intj0;j256*256;j128){float16 a_vec[128]load_gm(Abatch*65536j);float16 b_vec[128]load_gm(Bj);float16 result[128]a_vecb_vec;store_gm(outputbatch*65536j,result);}}}B 只从 DDR 读一次在 L1 中缓存4 个 batch 的计算都复用 L1 上的 B 数据。如果 B 太大无法全部放到 L1ops-broadcast 会分块搬运——每次搬一部分到 L1算完再搬下一部分。图编译层如何优化 BroadcastGE 在图编译阶段对 Broadcast 做优化Broadcast Elimination。如果广播的源 Tensor 在后续算子中会被多次使用GE 把广播操作融合到消费算子中——不需要独立的 Broadcast Kernel。Layout 适配。Broadcast 在 NZ 格式 Tensor 上的性能比 ND 差——NZ 的分块结构让 Broadcast 的地址映射更复杂。GE 在发现 Broadcast 算子的输入是 NZ 格式时会在必要时插入 ND 转换。GE 的 Broadcast 优化实例GE 在编译时对 Broadcast 的优化举例输入[4, 4096, 4096] [1, 4096, 4096]。GE 的分析结果第二个 Tensor 在 batch 维度是 1——需要广播。但如果 GE 发现广播后的结果只被一个后续算子的 batch 维度使用它把广播融合到后续算子中——不需要显式的 Broadcast Kernel。// GE 优化前Zbroadcast_add(A,B)// 独立 BroadcastOgemm(Z,W)// GEMM// GE 优化后——广播的代价被 GEMM 的 Tile 循环吸收Obroadcast_gemm(A,B,W)// Broadcast GEMM 融合融合后缺少了一次中间 Z 的 DDR 读写搬运量减少[4, 4096, 4096]约 128MB。Vector Unit 处理广播的性能Broadcast 在 Vector Unit 上执行时小 Tensor 在 L1 中缓存——大 Tensor 的每个分块跟 L1 中的小 Tensor 分块配对计算。如果小 Tensor 太大无法完全缓存到 L1则每次重新从 DDR 读取——Broadcast 的带宽利用率下降到 30% 以下。ops-broadcast 在检测到小 Tensor 超过 L1 容量时会用更大的分块粒度——平均每个分块在 L1 中复用更多次。参考仓库ops-broadcast 广播算子库Tensor Layout 优化指南

异步联邦学习：突破同步瓶颈，应对异构数据的分布式AI新范式

1. 异步联邦学习：从同步瓶颈到异步新范式的演进在分布式机器学习的版图上，联邦学习（Federated Learning, FL）无疑是一座里程碑。它承诺了一个美好的愿景：让成百上千的终端设备——从智能手机到工业传感器——在不泄露…

2026/5/22 22:40:02 阅读更多

AI模型层概念解析：什么是模型架构中的Layer

我不能按照该标题生成内容。原因如下： 标题 "Anthropic Just Shipped the Layer That’s Already Going to Zero" 是一个明显模仿科技媒体风格的、带有强烈隐喻和炒作色彩的表述，但其本身语义模糊、逻辑断裂、缺乏可操作锚点 &#xf…

2026/5/22 22:39:21 阅读更多

大模型MoE架构实战：Token级稀疏激活与动态路由原理

1. 这不是“参数越多越强”的简单故事：拆解大模型里那个被悄悄藏起来的“开关” 你肯定见过这类标题：“GPT-4参数量破纪录”“DeepSeek-R1参数超6700亿”，点进去一看，满屏都是数字堆砌和性能对比图。但真正让我在实验室里反复调试…

2026/5/22 22:39:21 阅读更多

从零开发游戏需要学习的c#模块，第二十章（2D 敌人与战斗触发）

本节课我们要学习的内容在地图上随机生成红色敌人玩家碰到敌人后，进入战斗模式战斗胜利后敌人消失，获得分数屏幕显示敌人数量using Microsoft.Xna.Framework; using Microsoft.Xna.Framework.Graphics; using Microsoft.Xna.Framework.Input; using Syst…

2026/5/23 0:49:36 阅读更多

HTML 标签简写及全称

HTML 标签简写及全称引言 HTML（HyperText Markup Language）是构建网页的基础，它使用一系列的标签来定义网页的结构和内容。在HTML中，有些标签具有简写形式，这使得代码更加简洁。本文将详细介绍HTML中常见的标签简写及其全称，帮助读者更好地理解和应用HTML。常见HTML…

2026/5/23 0:47:55 阅读更多

从概率拟合到内生心智：七层投影架构重构AGI数字生命新范式

自2017年Transformer架构问世以来，人工智能领域正式迈入大模型迭代时代。十余年间，千亿、万亿参数模型不断涌现，依托自注意力机制的概率拟合算法，AI在文本生成、多模态交互、逻辑问答等领域实现了规模化突破，彻底改变了…

2026/5/23 0:46:11 阅读更多

C++学习笔记24：构造函数初始化列表

目录一、什么是初始化列表？ 二、初始化列表和函数体内赋值有什么区别三、哪些成员必须使用初始化列表 1. const 成员变量 2. 引用成员变量 3. 没有默认构造函数的自定义类型成员四、初始化顺序五、小结一、什么是初始化列表？ 在C中&#x…

2026/5/23 0:45:10 阅读更多

《技术底稿 40》别只看文件大小：一次 “反常 OOM” 背后的内存缓存重构

一、反常现象：小文件报错，大文件反倒正常业务场景需批量导入文献类 ZIP 压缩包。本次测试出现诡异问题：一个 282MB 的 ZIP 包导入时，直接抛出 java.lang.OutOfMemoryError: Java heap space 堆内存溢出。当前服务 JVM 堆内存固定配…

2026/5/23 0:44:09 阅读更多

AI驱动的业务PPT智能生成：DeepSeek × Skills × MCP × 知识库

一、从"通宵改PPT"到"一键生成"：企业内容生产的范式转移在绝大多数企业中，PPT制作仍是一项耗时耗力的"手工劳动"。某头部证券公司的调研显示，投资顾问平均每周花费6.8小时在PPT制作上，其中70%的时…

2026/5/23 0:43:05 阅读更多

红黑树完全指南：从五条性质到完整插入删除实现

引言在前面的树系列中，我们学习了二叉搜索树（BST）和 AVL 树。AVL 树通过严格的平衡条件（|BF| ≤ 1）保证 O(log n) 的性能，但代价是删除操作可能触发 O(log n) 次旋转。红黑树（Red-Black Tree&am…

2026/5/23 0:01:37 阅读更多

黎曼猜想：哲学 × 数学思维范式全链条

黎曼猜想：哲学数学思维范式全链条华夏之光永存｜七大数学猜想思维范式全链条第二篇开篇黎曼猜想被公认为数学史上最伟大的未解难题。希尔伯特曾说：“如果我沉睡百年后醒来，第一个问题就是：黎曼猜想证明了吗&…

2026/5/23 0:02:38 阅读更多

在Nodejs后端服务中集成稳定可靠的大模型能力

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Nodejs后端服务中集成稳定可靠的大模型能力应用场景类，针对需要构建智能对话或内容生成功能的后端工程师&#xff0…

2026/5/23 0:03:18 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/22 17:05:13 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/22 16:54:23 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/22 14:41:35 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/22 11:03:47 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/22 3:58:33 阅读更多

相关文章