catlass端到端数据流

发布时间：2026/5/30 16:08:52

端到端数据流【免费下载链接】catlass本项目是CANN的算子模板库提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass本文跟踪一次完整的算子调用从 Python 到 NPU 内核执行。调用链路用户 Python 代码 │ │ result torch_catlass.basic_matmul(A, B, outDTypefloat16) │ ▼ ┌──────────────────────────────────────────────────────────────────┐ │ 第一层Python Op 包装器 (torch_catlass/ops/basic_matmul.py) │ │ │ │ - 规范化 outDType (str → torch.dtype) │ │ - 调用 torch.ops.catlass.basic_matmul(A, B, outDType, ...) │ └────────────────────────────────┬─────────────────────────────────┘ │ torch.ops.catlass.basic_matmul() ▼ ┌──────────────────────────────────────────────────────────────────┐ │ 第二层C Op 注册 (torch.ops 分发到 C 实现) │ │ │ │ - TORCH_LIBRARY(catlass, ...) 分发到注册的函数 │ │ - RUN_NPU_FUNC(basic_matmul, ...) 通过 OpCommand 包装 │ │ - 填充 TParams (dtype, layout 标志) │ │ - 填充 MatmulParams (m, n, k, tensor 地址) │ └────────────────────────────────┬─────────────────────────────────┘ │ BasicMatmul(blockNum, stream, tParams, params) ▼ ┌──────────────────────────────────────────────────────────────────┐ │ 第三层JIT 分发 (kernels/00_basic_matmul/basic_matmul.cpp) │ │ │ │ 1. JitMacroGeneratorTParams::generate() │ │ → MacroMap { CATLASS_JIT_ELEMENT_A, ..., CATLASS_JIT_LAYOUT }│ │ │ │ 2. JitCompiler::instance().getKernel(template, macros, kt) │ │ ├── makeKernelUuid(macros) │ │ │ ├── 排序所有 (key, value) 对 │ │ │ ├── 添加 __ARCH__ __KT__ │ │ │ ├── 拼接 keyvalkeyval... │ │ │ └── SHA256 → 64 字符 hex UUID │ │ │ │ │ ├── 检查 loaded_ 缓存 → 命中则返回 │ │ ├── 检查 {cacheDir}/{uuid}.so → 命中则 dlopen 返回 │ │ └── 未命中 │ │ ├── buildCompilerArgs(...) → bisheng 编译 │ │ ├── dlopen dlsym(run) │ │ └── 缓存到 loaded_ 映射 │ │ │ │ 3. entry(blockNum, stream, params) │ └────────────────────────────────┬─────────────────────────────────┘ │ JIT 编译的 run 函数 ▼ ┌──────────────────────────────────────────────────────────────────┐ │ 第四层JIT 内核模板 (basic_matmul_impl.cpp) │ │ │ │ extern C void run(blockNum, stream, params): │ │ - 从 params 创建 GemmCoord{m, n, k} │ │ - 构建 MatmulKernel::Arguments{shape, A, B, C} │ │ - 调用 RunKernelMatmulKernel(args, stream, blockNum) │ └────────────────────────────────┬─────────────────────────────────┘ │ RunKernelMatmulKernel(args, stream, coreNum) ▼ ┌──────────────────────────────────────────────────────────────────┐ │ 第五层内核启动器 (kernels/common/kernel_runner.h) │ │ │ │ 1. MatmulKernel::CanImplement(args) → 检查支持 │ │ 2. MatmulKernel::GetWorkspaceSize(args) → 计算 workspace 大小 │ │ 3. 分配 workspace: g_catlassWorkspaceAlloc(n) [torch NPU] │ │ 4. MatmulKernel::ToUnderlyingArguments(args, ws) → Params │ │ 5. coreNum, nullptr, stream(params) ← NPU 内核启动 │ └──────────────────────────────────────────────────────────────────┘数据变换过程Python: torch.Tensor (NPU 存储) │ ├── .storage().data() ──→ 设备指针 (void*) ├── .shape() ──→ m, n, k └── .scalar_type() ──→ dtype │ ▼ TParams: MatmulParams: element[A] aclDataType m shape[0] element[B] aclDataType n shape[1] element[C] aclDataType k shape[2] trans[A] false inputAddr[0] A.data_ptr() trans[B] false inputAddr[1] B.data_ptr() nz[A] false outputAddr[0] C.data_ptr() nz[B] false │ ├── JitMacroGenerator → MacroMap arch kt │ │ │ └── SHA256 → uuid.so │ └── JIT 内核 run 读取 params-inputAddr, params-m/n/kABI 约定JitEntryFn void(*)(uint32_t blockNum, aclrtStream stream, const void* params) 模板侧 extern C void run(uint32_t blockNum, aclrtStream stream, const CatlassKernel::MatmulParams* params) 包装器侧 entry(blockNum, stream, static_castconst void*(params))params在 ABI 层始终为MatmulParams*。类型特定的数据在结构体内部内核模板按预期类型转换回去。缓存生命周期进程启动 │ ├── JitCompiler::instance() (惰性单例) │ ├── 首次 getKernel(basic_matmul_impl.cpp, macros, AIC) │ ├── UUID SHA256(排序后的宏 arch kt) │ ├── 磁盘未命中 → bisheng 编译 → {uuid}.so │ ├── dlopen → dlsym(run) → 存入 loaded_[uuid] │ └── 返回入口函数 │ ├── 相同 getKernel() 再次调用 │ └── 内存命中 → 返回缓存的入口函数 │ ├── 不同 shape → 不同宏 → 不同 UUID │ └── 磁盘命中 → dlopen → 缓存 → 返回入口函数 │ ├── 不同进程 → 不同内存相同磁盘缓存 │ └── 磁盘命中 → dlopen (无需重新编译) │ └── 进程退出 → JitCompiler 析构 → clearCache() └── dlclose 所有已加载的 .so【免费下载链接】catlass本项目是CANN的算子模板库提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

基于微控制器与舵机的自动化药片分发装置设计与实现

1. 项目概述与核心思路拆解这个项目本质上是一个用微控制器驱动的简易自动化分发装置。它的核心逻辑非常清晰：用一个物理按钮作为触发信号，微控制器接收到信号后，按预设程序驱动两个舵机依次动作，从而完成一次“推-落”的机械流…

2026/5/30 16:08:52 阅读更多

HandheldCompanion：Windows掌机玩家的终极控制器增强指南

HandheldCompanion：Windows掌机玩家的终极控制器增强指南【免费下载链接】HandheldCompanion ControllerService 项目地址: https://gitcode.com/gh_mirrors/ha/HandheldCompanion 还在为Windows掌机的控制器体验不够完美而烦恼吗？无论是Steam D…

2026/5/30 16:08:52 阅读更多

学术写作的超级快充！常用的一键生成论文工具，逻辑清晰质量高

作为一名刚完成毕业论文的过来人，我太懂写论文的痛苦了 —— 选题纠结、资料搜集困难、结构不清晰、反复修改、查重压力大... 直到我发现了这套 AI 写作工具组合，简直是论文写作的 "开挂神器"，效率直接拉满，原本两个月的…

2026/5/30 16:07:49 阅读更多

TV Bro电视浏览器：5个理由让你爱上智能电视上网新体验

TV Bro电视浏览器：5个理由让你爱上智能电视上网新体验【免费下载链接】tv-bro Simple web browser for android optimized to use with TV remote 项目地址: https://gitcode.com/gh_mirrors/tv/tv-bro 你是否曾在智能电视上尝试浏览网页，却发现…

2026/5/30 16:55:09 阅读更多

英雄联盟玩家必备：League Akari 本地化智能助手完整指南

英雄联盟玩家必备：League Akari 本地化智能助手完整指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 作为英雄联盟玩家&#xf…

2026/5/30 16:54:08 阅读更多

Excel高手私藏技巧：用XLOOKUP函数实现动态下拉菜单与数据联动（附模板）

Excel动态交互系统构建：XLOOKUP与数据验证的深度整合在数据驱动的商业环境中，静态报表已经无法满足现代决策需求。想象一下这样的场景：当你在季度业务回顾会议上，只需轻点下拉菜单选择不同区域，销售数据、人员配置和业…

2026/5/30 16:54:08 阅读更多

基于Arduino与RFID的智能音频触发系统设计与实现

1. 项目概述与核心思路最近在做一个互动展览的项目，客户需要在参观者拿起不同展品时，自动播放对应的讲解音频。传统的按钮或者二维码方案要么互动感弱，要么操作繁琐。于是我想到了RFID（射频识别）技术，这东西…

2026/5/30 16:51:06 阅读更多

解决Keil ULINKpro驱动安装失败的Windows会话问题

1. ULINKpro硬件安装问题解析最近在调试基于Keil MDK的嵌入式项目时，遇到了一个棘手的ULINKpro调试器安装问题。这个故障现象相当典型：在Windows XP系统上安装ULINKpro适配器时，安装程序突然弹出错误提示，导致整个安装过程中断。…

2026/5/30 16:51:06 阅读更多

推三返一 + 排队返还：拆完这套组合模型，我理解了什么

叫"11>2"最近在帮几个操盘手看模型，有一个感受越来越强烈：单一模式，越来越难跑了。推三返一火的时候，大家一窝蜂往上冲。结果满大街都在讲同一个模型，用户审美疲劳，转化率直线下降。品牌方也很…

2026/5/30 16:50:06 阅读更多

Win11/Win10深度学习环境搭建：实测PyCharm远程连接WSL2下的CUDA，性能比虚拟机强多少？

Win11/Win10深度学习环境终极对决：WSL2 CUDA vs 虚拟机 vs 双系统实测指南当开发者需要在Windows系统上进行深度学习开发时，通常会面临三种选择：虚拟机方案、双系统方案和WSL2方案。本文将基于实际测试数据，从GPU性能、开发便利性…

2026/5/30 0:00:39 阅读更多

SketchUp STL插件终极指南：3D打印工作流完全掌握

SketchUp STL插件终极指南：3D打印工作流完全掌握【免费下载链接】sketchup-stl A SketchUp Ruby Extension that adds STL (STereoLithography) file format import and export. 项目地址: https://gitcode.com/gh_mirrors/sk/sketchup-stl SketchUp STL插件…

2026/5/30 0:00:39 阅读更多

基于ICL8038的多波形信号发生器：从原理到制作的完整指南

1. 项目概述：从零构建一个基于ICL8038的多波形信号发生器在电子实验、设备调试乃至生物医学信号处理领域，一个稳定可靠、波形纯净的信号源是不可或缺的“心脏”。无论是用于测试放大器的频率响应，还是模拟生理电信号进行算法研究，…

2026/5/30 0:01:40 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/30 11:31:24 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/29 8:13:55 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/30 13:31:32 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/30 3:46:38 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/30 3:48:20 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/29 13:19:05 阅读更多

相关文章