基于Triton的layernorm算子调优实践分析

发布时间：2026/5/21 19:20:49

作者昇腾实战派背景在进行视频生成模型的推理调优时通过分析profiling发现layernorm算子存在异常耗时现象。为了提高模型的推理效率需要对layernorm算子进行优化。本文将详细介绍问题的背景、原因分析及优化方案。问题描述在profiling中layernorm算子的执行过程中host在正式下发layernorm算子之前先分别下发了aclnnCast_SliceAiCore_Slice和aclnnCast_CastAiCore_Cast两个算子。这两个算子的作用是什么能否省掉原因分析通过查看op_summary文件可以详细了解到这两个算子的输入输出dtype和shape。具体信息如下图所示从summary中可以看出第一个算子的作用是将shape为[50220, 9, 128]的输入张量切分为shape为[50220, 3, 128]的张量第二个算子的作用是将切分后的张量数据类型从bfloat16转换为float32。第二个算子的原因不难分析因为代码中layernorm的实现是用的torch原生算子如图所示nn.layernorm的底层算子输入数据类型为float因此需要使用cast算子对数据类型进行转换。观察第一个算子的summary进一步产生了另一个疑问layernorm的输入shape为什么是[50220, 9, 128]呢明明在代码中已经通过unbind操作转换成[50220, 3, 128]了如下图所示这涉及到PyTorch中tensor的存储机制。tensor分为头信息区Tensor和存储区Storage。信息区主要保存着tensor的形状size、步长stride、数据类型dtype等信息而真正的数据则以连续一维数组的形式存储在存储区。如下图所示像view、reshape、unbind这一类的操作只是在host侧改变头信息区的指针ptr、步长stride等索引信息实际上并没有改变存储区device侧的storage。因此vid_q, vid_k, vid_v vid_qkv.unbind(1)这行代码的操作具象到实际内存中可以用下图来表示由此可见layernorm的输入张量vid_q并不是连续内存只不过是host侧的索引变了。因此遵循aclnnLayerNorm算子的输入规范需使用aclnnCast_SliceAiCore_Slice进行切片转换在device侧变成连续存储形式。算子优化本次优化的目的是跳过host侧的unbind操作并消除aclnnCast_SliceAiCore_Slice算子。为此需要开发一个支持非连续内存的layernorm算子。调用接口deftriton_inplace_layer_norm(qk:torch.Tensor,# 支持从 qkv slice 出来的不连续 tensorgamma:torch.Tensor,beta:torch.Tensor,):seq_len,n_heads,head_dimqk.shape# 50220, 3, 128seq_strideqk.stride(0)# 1152grid(48,)_inplace_layer_norm_kernel[grid](qk,gamma,beta,seq_len,n_heads,seq_stride,head_dim,eps1e-5,BLOCK_SIZE_SEQ64)returnqk调用接口比较简单易懂入参包括输入张量qk实际上是上文中的vid_q。gamma指的是原始layernorm的权重weight。beta指的是原始layernorm的权重bias。seq_len序列长度这里等于50220。n_headshead的数目这里等于3。seq_stride输入张量在序列维度的步长这里等于3x3x1281152。head_dim每个头的维度这里等于128。epslayernorm的分母防0参数。BLOCK_SIZE_SEQ这里指将每64个token划分为一个block方便在kernel中处理。中括号中的grid可以简单理解为并行处理的内核数和硬件能力有关这里设置为48是因为设备共有48个vector计算单元。kernel实现triton.jitdef_inplace_layer_norm_kernel(# Pointers to inputs/outputsinout_ptr,# [seq_len, n_heads, head_dim]gamma_ptr,# [head_dim]beta_ptr,# [head_dim]# Shapesseq_len:tl.constexpr,n_heads:tl.constexpr,seq_len_stride:tl.constexpr,head_dim:tl.constexpr,eps:tl.constexpr,BLOCK_SIZE_SEQ:tl.constexpr,):pidtl.program_id(0)num_programstl.num_programs(0)# 返回沿着指定 axis0 启动的程序实例的数量。 48个num_seq_blocks(seq_lenBLOCK_SIZE_SEQ-1)//BLOCK_SIZE_SEQ# 按序列划分共有785个seq block待处理num_programs_seqnum_programs//n_heads# 所有pid一起能够并行处理16个seq blockcol_offstl.arange(0,head_dim)# [0, 1, 2, ...., 127]gammatl.load(gamma_ptrcol_offs)betatl.load(beta_ptrcol_offs)forseq_block_idinrange(pid//n_heads,num_seq_blocks,num_programs_seq):seq_indicesseq_block_id*BLOCK_SIZE_SEQtl.arange(0,BLOCK_SIZE_SEQ)seq_maskseq_indicesseq_len head_idxpid%n_heads input_row_base_offsseq_indices*seq_len_stride input_row_offsinput_row_base_offshead_idx*head_dim output_row_base_offsseq_indices*seq_len_stride output_row_offsoutput_row_base_offshead_idx*head_dim q_block_offsinput_row_offs[:,None]col_offs[None,:]# load q and cast to float32qtl.load(inout_ptrq_block_offs,maskseq_mask[:,None],other0.0)q_fp32q.to(tl.float32)# compute mean varrow_meantl.sum(q_fp32,axis1,keep_dimsTrue)/head_dim row_vartl.sum(q_fp32*q_fp32,axis1,keep_dimsTrue)/head_dim-row_mean*row_mean rstdtl.rsqrt(row_vareps)# normalize qq_fp32(q_fp32-row_mean)*rstd q_fp16q_fp32.to(inout_ptr.dtype.element_ty)q_fp16q_fp16*gammabeta# store back qq_out_block_offsoutput_row_offs[:,None]col_offs[None,:]tl.store(inout_ptrq_out_block_offs,q_fp16,maskseq_mask[:,None])

LTX 2.3运镜 LoRA：Cameraman 一键复刻专业镜头美学，你的 AI 摄影指导已上线。

一、LTX2.3镜头复刻的工作流程核心原理：使用Cameraman IC-LoRA技术控制镜头运动工作流特点：能够提取参考视频的镜头运动并复刻到生成视频中 1.提取镜头操作步骤： 上传带有镜头控制的参考视频系统自动分析并提取镜头运动参数技术要点&am…

2026/5/21 19:20:28 阅读更多

Midjourney拟态风终极内参（2024.06最新版）：含6类行业专属LORA融合权重表、11个失效规避checklist及3个已验证绕过--v 6.2限流机制的prompt结构

更多请点击： https://codechina.net 第一章：Midjourney拟态风的范式跃迁与v6.2限流本质解构 Midjourney v6.2 的发布并非一次简单的模型迭代，而是一场以“拟态风”（Mimetic Style）为内核的生成范式跃迁——其核心在于…

2026/5/21 19:19:07 阅读更多

苹果色彩+4K 120Hz+90W一线通不到2000！618最值得买的专业显示器

苹果色彩4K 120Hz90W一线通不到2000！618最值得买的专业显示器哈喽小伙伴们好，我是Stark-C~话说之前给大家分享的那么多款显示器，貌似都是给“臭打游戏”的电竞显示器。然后前段时间有位搞设计的小伙伴问到我：618了，能不…

2026/5/21 19:18:26 阅读更多

i.MX 6ULL工业级开发平台深度评测：从硬件解析到Linux系统实战

1. 项目概述与核心价值最近在评估一款面向工业控制和物联网边缘计算的开发平台——OKMX6ULL-C。对于嵌入式开发者而言，选型一款合适的核心板，往往意味着项目成功了一半。NXP的i.MX 6ULL这颗芯片在业内名气不小，以其出色的性价比和低功耗特性&…

2026/5/21 20:03:41 阅读更多

创业团队如何利用Taotoken统一技术栈并降低AI接入门槛

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度创业团队如何利用Taotoken统一技术栈并降低AI接入门槛对于资源有限的创业团队而言，在产品中集成人工智能能力是提升竞…

2026/5/21 20:03:00 阅读更多

性价比高的那曲虫草门店

导读：那曲虫草因其独特的生长环境和卓越的品质，一直以来都是滋补品市场中的瑰宝。然而，面对市场上琳琅满目的选择，如何找到性价比高的那曲虫草门店成为了许多消费者的难题。本文将深入探讨那曲虫草的特点、选购技巧以及推荐品牌&a…

2026/5/21 20:02:20 阅读更多

仅剩47套！2024最稀缺Midjourney扁平化商业授权模板包（含SVG矢量源文件+品牌适配指南）

更多请点击： https://kaifayun.com 第一章：扁平化商业授权模板包的稀缺性本质在企业级软件分发与SaaS服务治理实践中，扁平化商业授权模板包（Flat Commercial License Template Package）并非普通法律文档集合&#xf…

2026/5/21 20:02:20 阅读更多

还在手动逐句转录线下讲座录音？2026年这3款在线语音转文字工具5分钟搞定1小时录音

上周帮刚入职的师妹整理线下新人培训录音，她对着1小时的录音逐句暂停打字，熬了快3小时还错了一堆知识点，要背培训内容还得自己整理考点，下班直接拖到九点；我之前对接带方言口音的客户，录音转出来一半不对&a…

2026/5/21 20:02:20 阅读更多

AI for Science：从数据驱动到科学发现，构建科研新范式

1. 从AlphaFold到GPT-3：AI如何成为科学家的“新感官”如果你是一位从事物理、化学、生物或材料科学的研究者，最近几年可能时常被一种复杂的情绪所包围：一方面是兴奋，看到像AlphaFold2这样的人工智能工具，几乎一夜间解决…

2026/5/21 20:02:20 阅读更多

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

四旋翼飞行品质优化：MissionPlanner高级校准实战指南当你的四旋翼无人机已经能够稳定起飞，却在定高模式下出现难以解释的飘移现象时，这往往意味着需要进入更深层次的飞控调校阶段。许多飞手在完成基础校准后便止步不前，殊不知电机…

2026/5/21 0:00:23 阅读更多

科研学术篇---论文搜索方法

高效搜集和研读论文，是构建扎实知识体系的基石。要想做到“高效”与“高质”并重，需要把整个过程当作一个闭环系统来优化——从目标锁定、来源筛选、检索策略，到快速粗筛、深度内化、持续追踪，每一步都有对应的工具和心法。下面逐…

2026/5/21 0:01:25 阅读更多

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

YOLOv11城市道路摩托车与自行车目标检测数据集 📊 数据集基本信息目标类别： [‘bike’, ‘motorcycle’]中文类别：[‘自行车’, ‘摩托车’]训练集：1374 张验证集：130 张测试集：65 张总计：1569…

2026/5/21 0:03:28 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/21 16:37:36 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/21 8:30:37 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/21 5:00:59 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/21 1:50:14 阅读更多

相关文章

LTX 2.3运镜 LoRA：Cameraman 一键复刻专业镜头美学，你的 AI 摄影指导已上线。

Midjourney拟态风终极内参（2024.06最新版）：含6类行业专属LORA融合权重表、11个失效规避checklist及3个已验证绕过--v 6.2限流机制的prompt结构

苹果色彩+4K 120Hz+90W一线通不到2000！618最值得买的专业显示器

i.MX 6ULL工业级开发平台深度评测：从硬件解析到Linux系统实战

创业团队如何利用Taotoken统一技术栈并降低AI接入门槛

性价比高的那曲虫草门店

仅剩47套！2024最稀缺Midjourney扁平化商业授权模板包（含SVG矢量源文件+品牌适配指南）

还在手动逐句转录线下讲座录音？2026年这3款在线语音转文字工具5分钟搞定1小时录音

AI for Science：从数据驱动到科学发现，构建科研新范式

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

科研学术篇---论文搜索方法

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)