Qwen3.5高性能算子接入指导，让你的GDN性能翻倍

发布时间：2026/5/16 16:49:05

Qwen3.5的核心是GDN线性注意力结构但GDN结构复杂算子选型与接入方案较为复杂。本文分享昇腾NPU上快速接入高性能算子实践包括CANN环境搭建、自定义算子编译、PyTorch适配与算子接入示例。文章中提及的算子已合入vLLM最新版本。背景Qwen3.5介绍Qwen3.5是2026年2月发布的原生多模态大模型该系列采用了和Qwen-Next一致的混合架构包含了线性注意力与传统注意力。获取长序列的高性能的同时保持了传统Attention对等的模型表现力。Qwen3.5在MMLU-Pro、IFBench等多项基准测试中超越GPT-5.2和Gemini 3 Pro并支持最长2小时视频理解、自主操作电脑手机等智能体能力。后续发布的Qwen3.5-Omni更实现原生全模态在215项任务中达到SOTA。截止今天Qwen3.6也已经问世不过模型结构没有出现大的调整。对于Qwen3.6的使用者而言这篇文章的经验也是通用的。模型Highlights旗舰版Qwen3.5-397B的模型结构如图所示Qwen3.5每4层为一个循环每个循环中包含1个传统非线性层和3个线性层。非线性层与线性层的区分仅为Attention模块FFN模块是完全一致的。具体的层数与FFN选型包含Dense与Moe依不同的模型小版本有所区别。线性层将传统的非线性Attention演变成了Linear Attention打破了长序列下On²的复杂度其采取的Linear Attention算法是业界最领先的Gated Delta NetGDN它融合了Mamba与Delta Net算法可以兼顾全局衰减的同时建立单键值替换的逻辑。FFN层采用经典的MOE结构专家数多达512专家小中间层hiddensize仅1024每个token选择10个路由专家以及一个共享专家符合当前的多且小的专家配置演进趋势。10个路由专家的选择算法是朴实的Topk没有演进新的路由策略。综上Qwen3.5给NPU带来的冲击集中在Attention模块的GDN也是开箱算子适配中最困难的地方。针对这样的痛点本文整理了一套高性能算子接入的指导。后文中会重点介绍GDN同时也会简要介绍一下FFN模块的算子选型。本文的算子已合入vLLM最新版本并使能版本链接https://quay.io/repository/ascend/vllm-ascend?tabtagstaglatestv0.20版本与最新的main版本均包含本文中的算子。快速使能指导下图简单描述了复杂的GDN算子、MOE算子与融合算子的替换逻辑图中未穷举所有涉及的接口对于GDN算子需要替换的是预处理算子Causal_conv1D与6个GDN融合算子。对于MOE算子除了GmmSwigluQuant有一处简单融合替换外最值得切换的高性能接口是Dispatch/Combine。准备工作CANN开发环境部署首先需安装CANN开发包提供NPU算子运行所需的底层驱动与工具链。推荐使用是社区版8.5.2总共要下2个run包这里以A3机器为例即需要下载A3-ops、toolkit下载地址为https://www.hiascend.com/developer/download/community/result?modulecanncann8.5.2需要找到与你当前机器对应的包#设置需要安装的路径export INSTALL_PATH/usr/local/Ascend./Ascend-cann-toolkit*run --install-path$INSTALL_PATH --full --quiet./Ascend-cann-A3*run --install-path$INSTALL_PATH --install --quietsource $INSTALL_PATH/ascend-toolkit/set_env.sh编译自定义算子包接下来需要安装包含了高性能GDN算子的算子包此处需要使用三方库fla-npu。下载地址为https://github.com/flashserve/flash-linear-attention-npu# 编译命令注意--soc${soc_version}需要指定为当前机器的芯片类型bash build.sh --socascend910_93 --pkg --opschunk_bwd_dv_local,chunk_bwd_dqkwg,chunk_gated_delta_rule_bwd_dhu,prepare_wy_repr_bwd_da,prepare_wy_repr_bwd_full,chunk_fwd_o,chunk_gated_delta_rule_fwd_h,recurrent_gated_delta_rule,recompute_wu_fwd# 安装run包./build_out/cann-ops-transformer-custom_linux-aarch64.runtorch_custom框架编译构建下载并安装对应python和torch版本的最新发行版https://gitcode.com/Ascend/pytorch/releases/需要获取26.1 beta及以后的版本编译torch适配whl包并安装cd torch_custom/fla_npubash build.sh算子接入Qwen3.5中涉及算子众多基于传统Attention的非线性层与整网耗时占比较小的成熟算子这里不赘述只讲解一下新结构下的中重型算子。重点算子列表推理-Prefill场景/训练-前向场景推理Prefill与训练前向场景使用的算子相同共涉及7个融合算子如下表所示推理-Decode场景训练-反向场景反向场景中包含较多前向算子这里只单独提及仅反向涉及的算子Attention模块-GDN接入实践在接入GDN算子前先说明一下我们追求极致性能做的一些小设计。要想获取到完整的性能收益接入GDN算子需要注意以下两件事情。模型中传递的默认tensor layout均为定长BSH变长TND对GDN来说读写操作会跨越高N维导致降低访存效率。GDN算子众多transpose的开销会低于访存效率降低的代价因此本篇文章中推荐的GDN算子统一采取了NTD或BNSD的特殊layout。为了减少这样的layout引入的transpose开销我们在GDN预处理算子causal_conv1D的前反向完成默认layout到特殊layout的转换所有的GDN算子均使用统一的特殊layoutGDN流程中不存在layout变化。要想做到更好的tiling做到更严谨的负载均衡Ascend C算子的host阶段应拿到cu_seqlen同时这也可以帮我们拦截掉一些索引错误的问题。因此Ascend C GDN算子的输入cu_seqlens是list在host上而Triton GDN算子都是tensordevice上。cu_seqlen的物理意义是组batch逻辑这就意味着45个线性层中所有的GDN算子所需同一份输入。我们需要一开始就在device和host上各存储一份从而使得每个训练step或每个完整Prefill任务仅做一次h2d。接入代码示例https://github.com/flashserve/flash-linear-attention-npu/blob/main/examples/flash_gated_delta_rule.pyFFN模块-Dispatch/Combine接入实践Dispatch和Combine算子用于替换Moe层中的AllToAllV通信算子AllToAllV通信算子涉及H/D同步导致耗时较长。使用Dispatch、Combine替换后专家路由结果的处理下沉到Device上消除了Host和Device同步开销。经过多个迭代的演进Dispatch和Combine算子利用了AIV驱动ROCE能力并叠加了通信数据去重机内机间流水并行等优化手段典型场景下模型吞吐性能提升50%。Dispatch和Combine算子输入比较简单模型侧只需将数据x和前级门控网络选择的topk个专家索引expert_ids作为输入并提供moe专家数moe_expert_num、EP通信域大小ep_world_size、rank ID等属性即可。Dispatch输出数据expand_x、各专家token个数expert_token_nums直接提供给后级GMM。通信算法相关的辅助信息assist_info_for_combine由Dispatch输出直接透传给Combine模型侧无需意识。算子接口参数详细说明、调用示例可参考接口文档Dispatchhttps://www.hiascend.com/document/detail/zh/Pytorch/2600/apiref/torchnpuCustomsapi/docs/zh/custom_APIs/torch_npu/torch_npu-npu_moe_distribute_dispatch_v2.mdCombinehttps://www.hiascend.com/document/detail/zh/Pytorch/2600/apiref/torchnpuCustomsapi/docs/zh/custom_APIs/torch_npu/torch_npu-npu_moe_distribute_combine_v2.md优化结果在输入规模bs64seqlen1knum_head32场景下重点GDN算子优化效果如下耗时平均缩短为原始triton算子的44%。在输入规模ep64bs32seqlen1hiddensize7ktopk8场景下Dispatch/Combine算子优化效果如下耗时平均缩短为基线方案的43%。

从‘奶茶重量’到‘排队时间’：用贾俊平《统计学》第七章原理解读5个真实生活数据分析案例

从‘奶茶重量’到‘排队时间’：用统计学原理解读5个真实生活数据分析案例每天早晨买咖啡时，你是否注意过不同分店的排队速度差异？网购时收到的商品重量是否与标注一致？这些看似琐碎的生活细节，背后都藏着统计学的智慧…

2026/5/16 16:49:05 阅读更多

SDT架构：数据中心网络优化的新范式

1. SDT架构：数据中心网络优化的新范式在当今数据中心运营中，网络处理带来的CPU开销已成为制约整体性能的关键瓶颈。随着100Gbps甚至更高速率网络接口的普及，传统的网络数据处理方式正面临前所未有的挑战。根据行业实测数据，在40G…

2026/5/16 16:49:05 阅读更多

独立开发者如何利用Taotoken的Token Plan降低项目成本

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度独立开发者如何利用Taotoken的Token Plan降低项目成本对于独立开发者或小型团队而言，将大模型能力集成到产品中是提升…

2026/5/16 16:49:04 阅读更多

轻松解锁网易云音乐地区限制：QtUnblockNeteaseMusic 5分钟入门指南

轻松解锁网易云音乐地区限制：QtUnblockNeteaseMusic 5分钟入门指南【免费下载链接】QtUnblockNeteaseMusic A desktop client for UnblockNeteaseMusic, made with Qt. 项目地址: https://gitcode.com/gh_mirrors/qt/QtUnblockNeteaseMusic 您是否曾因地区限…

2026/5/16 18:24:35 阅读更多

GD32F303定时器PWM呼吸灯保姆级教程：从原理图到代码调试，一次搞定

GD32F303定时器PWM呼吸灯实战指南：从硬件连接到软件调优呼吸灯作为嵌入式开发的经典案例，不仅能帮助初学者理解PWM原理，更是掌握定时器外设的绝佳切入点。本文将带您从零开始，在GD32F303开发板上实现一个平滑自然的呼吸灯效果&am…

2026/5/16 18:24:35 阅读更多

2026届最火的五大AI论文助手推荐

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 由于人工智能生成内容也就是AIGC被广泛运用，互联网里到处都是由AI生成的&#x…

2026/5/16 18:23:34 阅读更多

入门数据挖掘

如果你是数据领域的新手，大概率会被“数据挖掘”这个词吓到——听起来既高深又抽象，仿佛是只有资深工程师才能驾驭的技能。但其实，数据挖掘并没有那么神秘，用一个简单的类比，就能轻松理解它的核心逻辑。想象茫茫大海上…

2026/5/16 18:22:33 阅读更多

e2m：多格式文档智能转换Markdown的工程实践与架构解析

1. 项目概述与核心价值最近在折腾一些本地化的AI应用，发现一个挺有意思的项目，叫wisupai/e2m。乍一看这个仓库名，可能有点摸不着头脑，但它的全称是 “Everything to Markdown”，顾名思义，它的核心使命就是把…

2026/5/16 18:21:37 阅读更多

开源项目策略管理实践：从vectimus/policies看高效协作规范

1. 项目概述：从“vectimus/policies”看现代软件项目的策略管理实践最近在梳理一个开源项目的贡献流程时，我遇到了一个非常典型的场景：项目维护者需要清晰地定义哪些行为是鼓励的，哪些是禁止的，以及如何处理代码合并…

2026/5/16 18:21:12 阅读更多

SD-PPP：在Photoshop中开启智能设计革命的终极AI插件

SD-PPP：在Photoshop中开启智能设计革命的终极AI插件【免费下载链接】sd-ppp A Photoshop AI plugin 项目地址: https://gitcode.com/gh_mirrors/sd/sd-ppp 你是否厌倦了在Photoshop和AI工具之间频繁切换，打断了创意的流畅性？SD-PPP正…

2026/5/16 0:00:07 阅读更多

NomNom存档编辑器：解放你的《无人深空》游戏体验终极指南

NomNom存档编辑器：解放你的《无人深空》游戏体验终极指南【免费下载链接】NomNom NomNom is the most complete savegame editor for NMS but also shows additional information around the data youre about to change. You can also easily look up each item i…

2026/5/16 0:00:27 阅读更多

5个专业策略：构建企业级本地漏洞情报分析平台

5个专业策略：构建企业级本地漏洞情报分析平台【免费下载链接】cve-search cve-search - a tool to perform local searches for known vulnerabilities 项目地址: https://gitcode.com/gh_mirrors/cv/cve-search 在当今复杂的网络安全环境中，快速…

2026/5/16 0:00:27 阅读更多

贾子理论与AI时代文明竞争：从暴力计算到本质贯通的范式重构

贾子理论与AI时代文明竞争：从暴力计算到本质贯通的范式重构摘要本文基于贾子理论的文明竞争视角，揭示中美AI战略差异的本质并非技术参数较量，而是“暴力计算”与“本质贯通”两种文明范式的根本对立。美国依赖算力堆叠与资本逻辑追求技术霸权…

2026/5/16 8:21:07 阅读更多

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…

2026/5/15 17:36:19 阅读更多

基于飞书与OpenAI构建企业级AI助手：架构、部署与深度优化指南

1. 项目概述：当飞书遇上AI，一个企业级智能助手的诞生最近在折腾一个挺有意思的项目，叫“ConnectAI-E/feishu-openai”。简单来说，它就是一个桥梁，把飞书这个强大的企业协作平台，和以ChatGPT为代表的OpenA…

2026/5/16 8:21:07 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/15 14:41:25 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/15 14:41:26 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/16 17:57:38 阅读更多

相关文章