CANN/cannbot-skills Qwen3-Next MoE双流案例

发布时间：2026/5/20 12:28:15

案例Qwen3-Next Patch 形态的 MoE 双流【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills概述这个案例解决的是 Qwen3-Next 在 SGLang / DeePEP 路径中 shared expert 与路由过程串行的问题。做法是在 patch 中显式引入一条shared_expert_stream让 shared expert 前向与 routing、dispatch、combine 形成 overlap最适合框架 patch 级的 NPU 特化改造这个案例的主要实现形态来自 patch。背景与问题当优化不是直接发生在模型仓内部而是通过框架 patch 落地时多流改造往往要嵌入现有 runtime 流程里。Qwen3-Next 的这个案例就是如此它需要在 SGLang 的 MoE 逻辑里插入 NPU 专用的 shared stream同时保持 DeePEP 的专家派发流程不变。核心思路用全局 helper 获取或复用shared_expert_stream。通过环境变量控制是否启用 NPU DeePEP MoE 多流。在npu_forward_normal_dual_stream中shared expert 与 dispatcher/combine 主路径交叉执行。在最终输出前通过current_stream.wait_stream(shared_expert_stream)汇合。执行编排图关键代码第一段代码是 patch 提供的 shared stream 获取函数def get_npu_shared_expert_stream(): global shared_expert_stream if shared_expert_stream is None: shared_expert_stream torch.npu.Stream() return shared_expert_stream第二段代码通过环境变量决定是否走双流self.enable_npu_deepep_moe_multi_stream get_bool_env_var( ENABLE_NPU_DEEPEP_MOE_MULTI_STREAM, false ) if _is_npu and self.shared_expert is not None and self.enable_npu_deepep_moe_multi_stream: shared_expert_stream get_npu_shared_expert_stream() final_hidden_states, shared_output self.npu_forward_normal_dual_stream( hidden_states, forward_batch, shared_expert_stream )第三段代码是双流核心编排current_stream torch.npu.current_stream() router_logits, _ self.gate(hidden_states) shared_expert_stream.wait_stream(current_stream) with torch.npu.stream(shared_expert_stream): hidden_states_copy hidden_states.clone() shared_output self.shared_expert_gate(hidden_states_copy) gate_up, _ self.shared_expert.gate_up_proj(hidden_states_copy) dispatch_output self.experts.dispatcher.dispatch(hidden_stateshidden_states, topk_outputtopk_output) combine_input self.experts.run_moe_core(dispatch_output) with torch.npu.stream(shared_expert_stream): shared_output F.sigmoid(shared_output) gate_up self.shared_expert.act_fn(gate_up) shared_expert_output, _ self.shared_expert.down_proj(gate_up) shared_output shared_output * shared_expert_output router_output self.experts.dispatcher.combine(combine_inputcombine_input) current_stream.wait_stream(shared_expert_stream)复用参考代表实现Qwen3-Next SGLang patch。相似实现通用 MoE 共享专家双流案例。特化实现这里更强调 patch 接口与框架内 runtime 的兼容而不是模型本体改造。注意事项patch 形态案例最容易受上游框架版本变化影响。hidden_states.clone()这类处理可能带来额外内存开销需要结合收益评估。双流逻辑要和 dispatcher / combine 生命周期对齐否则容易出现等待顺序错误。关键词torch.npu.Streamshared_expert_streamwait_streampatchDeePEPQwen3-Next【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/GE：MatMul+Add融合Pass示例

样例使用指导【免费下载链接】ge GE（Graph Engine）是面向昇腾的图编译器和执行器，提供了计算图优化、多流并行、内存复用和模型下沉等技术手段，加速模型执行效率，减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前…

2026/5/20 12:28:15 阅读更多

CST优化器实战：手把手教你设定目标，自动找到让PCB辐射最低的最佳走线间隙

CST优化器实战：如何通过自动化设计降低PCB辐射在高速PCB设计中，电磁兼容性(EMC)始终是工程师面临的核心挑战之一。特别是当信号线不得不跨越电源或地平面分割时，产生的辐射问题常常让设计团队夜不能寐。传统方法需要工程师手动调整参数、反复…

2026/5/20 12:27:32 阅读更多

如何免费解锁Cursor AI Pro功能：开源工具完全指南

如何免费解锁Cursor AI Pro功能：开源工具完全指南【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使用Pro 功能: Youve reached your trial r…

2026/5/20 12:27:32 阅读更多

CP2K实战指南：CUTOFF与REL_CUTOFF参数的系统化调优策略

1. 理解CUTOFF与REL_CUTOFF的核心作用刚开始用CP2K做材料计算时，最让我头疼的就是MGRID里这两个参数。记得第一次跑硅晶体能量优化，结果比文献值差了近10%，导师指着屏幕问："你的网格精度设对了吗？"当时真是…

2026/5/20 13:23:06 阅读更多

UML类图实战：从设计到代码的精准映射

1. 为什么需要从UML类图到代码的精准映射？ 第一次接触UML类图时，我总觉得它像是一张"纸上谈兵"的设计稿。直到在实际项目中踩过几次坑才明白，类图与代码之间的精准映射能力，是区分普通程序员和架构师的关键技能之一。 …

2026/5/20 13:23:06 阅读更多

车规级RTC芯片：自动驾驶系统的时间同步基石与工程实践

1. 项目概述：当汽车需要一颗永不迷路的“心脏”在汽车智能化与自动驾驶的宏大叙事里，我们谈论着激光雷达的精度、AI芯片的算力、摄像头的像素。然而，有一个看似微小却至关重要的部件，它不负责感知，也不负责决策&#x…

2026/5/20 13:22:05 阅读更多

性能压榨的暴力美学：深度拆解 llama.cpp，结合 GGUF 量化实测，看普通人如何用 2GB 内存硬核跑赢 7B 大模型

发布日期： 2026-05-19 (release: b9222) 标签： #llamacpp #GGUF量化 #C #大模型推理 #边缘AI #内存降熵一、引言众所周知，大模型的参数量与逻辑推理能力正在以令人窒息的速度狂飙。然而，主流企业在落地 AI 智能体&#xff0…

2026/5/20 13:22:05 阅读更多

终结单体 AI 的交付死局：深度拆解 agency-agents，构建多角色对抗、智能体原生的企业级全能代理网格

发布日期： 2026-05-20标签： #AIAgent #agency_agents #多智能体协同 #软件工程 #架构设计 #生产级部署一、引言在 2026 年，写一个基于单体大模型的 Agent 帮你回回邮件或写写玩具级 Demo 已经毫无门槛。然而，当你尝试让 AI 去独立…

2026/5/20 13:22:05 阅读更多

FanControl中文设置终极指南：5步让Windows风扇控制说中文

FanControl中文设置终极指南：5步让Windows风扇控制说中文【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending…

2026/5/20 13:20:23 阅读更多

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

顶伯在线语音工具背后的技术力量在人工智能浪潮中，语音交互正成为人机沟通的核心方式。顶伯作为行业领先的在线语音工具，凭借自主研发的深度学习架构，将文字转化为高度自然的语音，广泛应用于有声阅读、智能客服、教育辅助等领域。…

2026/5/20 0:00:25 阅读更多

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

全志V3s开发板实战：用Buildroot 2020.02.4定制最小Linux文件系统在嵌入式开发领域，构建一个精简高效的Linux文件系统往往是项目成功的关键第一步。全志V3s作为一款高性价比的ARM Cortex-A7芯片，搭配Buildroot这一经典构建工具，能…

2026/5/20 0:00:25 阅读更多

百考通：AI赋能期刊论文写作，智能生成优质内容

在学术研究领域，期刊论文的撰写是成果输出的关键环节，却也让众多科研工作者与学生倍感压力：选题迷茫、逻辑梳理困难、格式规范复杂、内容提炼耗时，严重拖慢了学术成果的发表节奏。百考通（https://www.baikaotongai.com…

2026/5/20 0:00:46 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/20 5:14:40 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/19 6:17:20 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/20 2:02:06 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/20 5:46:58 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/20 3:00:53 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/19 22:33:20 阅读更多

相关文章

CANN/GE：MatMul+Add融合Pass示例

CST优化器实战：手把手教你设定目标，自动找到让PCB辐射最低的最佳走线间隙

如何免费解锁Cursor AI Pro功能：开源工具完全指南

CP2K实战指南：CUTOFF与REL_CUTOFF参数的系统化调优策略

UML类图实战：从设计到代码的精准映射

车规级RTC芯片：自动驾驶系统的时间同步基石与工程实践

性能压榨的暴力美学：深度拆解 llama.cpp，结合 GGUF 量化实测，看普通人如何用 2GB 内存硬核跑赢 7B 大模型

终结单体 AI 的交付死局：深度拆解 agency-agents，构建多角色对抗、智能体原生的企业级全能代理网格

FanControl中文设置终极指南：5步让Windows风扇控制说中文

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

百考通：AI赋能期刊论文写作，智能生成优质内容

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)