CANN/cann-recipes-infer LongCat-Flash-Lite EP路径优化进度归档

发布时间：2026/5/20 5:01:22

LongCat-Flash-Lite EP 路径改造进度归档【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer阶段 1 - 并行策略分析首版2026-03-28已被新方案覆盖归档原因: 该版分析仅推导出 D1纯 TP8和 D3attn_tp8 EP8两个候选后续按客户方案进一步细化为 dense_tp1 ngram_embed_tp8 的差异化切分。参数与模块链路模块总参数量BF16 显存说明embed_tokens0.40 B0.8 GB主词表Ngram Embedding~31 B62 GB12 个子表 × ~10M vocab × 256必须 TP 切MLA × 280.99 B0.13 GBq_lora1536, kv_lora512Dense MLP × 280.5 B1.0 GBgate/up/downMoE × 1433.8 B62 GBEP8 时单卡 32 expertLM Head0.4 B0.8 GB候选方案D1纯 TP8: 全部张量并行包括 MoE。问题: MoE 切 1024/8128 维成碎矩阵D3attn_tp8 ep8: attn 走 TPMoE 走 EP。最终采用此方案归档于 2026-03-31旧版 EP8 实施记录旧 EP8 配置attn_tp8 dense_tp8 embed_tp8LongcatFlashExperts 沿用FusedMoEGMM每 rank 持有 32 个 routed expert走 EP8 双重 AllToAll双路由跳过 npu_moe_distribute_dispatch K24 上限实测 prefill ~250msdecode ~170ms被新版 ep8 dense DP 主 embed DP 替代后归档。阶段 1 - 并行化改造完成归档部署方案确认按客户要求实施 | 模块 | TP 大小 | 备注 | |------|--------|------| | MLA | 4 或 8 | 提供两套配置b2 用 4b1 用 8 | | Dense MLP | 1 (DP) | 不切每卡持有完整权重 | | MoE | EP8 | 走双重 AllToAll routing | | 主 Embedding | 1 (DP) | 主表 0.8 GB 复制到每卡 | | Ngram subtables | 8 | 沿 vocab 切AllReduce 形式 | | LM Head | 8 | 沿 vocab 切 |与旧 EP8 实现的差异模块旧 ep8 (TP8 一刀切)新 ep8 (本次实现)dense MLPTP8 AllReduceDP1不切主 EmbeddingTP8 AllReduceDP1不切ngram 子表与主 embed 共用 embed_tp通过custom_params.ngram_embed_tp_size独立 TP与主 embed 解耦MoEEP8 双重路由EP8 双重路由一致AttentionTP8TP8 / TP4 双套配置BSPR check强制 batch % attn_tp 0已移除与 MLA 切头不冲突代码改动模型侧自闭环未改框架代码ngram_embed_tp_size通过model_config.custom_params读取ngram 通信复用embed_tp_group。文件变更models/longcat_flash_lite/models/modeling_longcat_flash_lite.pyLongcatFlashMLP切到dense_tp_groupNgramEmbedding增加独立ngram_tp_size/rank/group参数由 model__init__从custom_params读出后注入models/longcat_flash_lite/config/longcat_flash_lite_rank_8_8ep.yamldense_tp_size1,embed_tp_size1,custom_params.ngram_embed_tp_size8实测性能验收配置PrefillDecode对比基线输出验证baseline (旧 TP8)4475 ms273 ms——ep8 attn_tp8 batch1198 ms161 ms-41% decode✓ 与 baseline 完全匹配ep8 attn_tp4 batch2207 ms150 ms (per req 75 ms)-45% decode✓ 完全匹配关键观察 / 经验客户方案的合理性: dense MLP 走 DP 节省 AllReduce虽然每卡多 1.4 GB 权重但通信省下来的时间显著单卡 HBM 完全负担得起。attn_tp4 batch2 比 attn_tp8 batch1 总吞吐更好: 因 attn_tp 更小时 q/k/v/o 矩阵更大cube 利用率更高同时 batch2 让 MoE GMM 也更接近峰值。ngram 子表 TP8 不必转 ReduceScatter: 当前的 AllReduce 形式已经能并行没有 SP 串接转换无收益。验证结果指标attn_tp8 batch1attn_tp4 batch2prefill198 ms220 msdecode/token161 ms150 ms单卡显存峰值19.6 GB20.4 GB输出与 baseline 对齐✓✓阶段 1 通过进入阶段 2。阶段 2 — KVCache FA 改造归档于 2026-04-28实施替换_forward_legacy中的 manual SDPA 路径新增_forward_prefill_paNTD/TND FA npu_kv_rmsnorm_rope_cache和_forward_decode_paBSND_NBSD FA absorb path新增LongcatFlashNgramForCausalLM.process_weights_after_loading→ 调用_init_absorb_weights拆分kv_b_proj为kv_b_proj_w_k / kv_b_proj_w_v新增LongcatFlashNgramForCausalLM.init_pa_cache(...)按batch_size_per_dp_rank * ceil(max_seq/block_size)分配cache_nope、cache_rope、block_table删除LongcatFlashMLA._forward_legacy、self.k_cache/v_cache/k_cache_unit/v_cache_unit、self.scaling避免model_worker._init_kvcache误分配 ~336 MB legacy buffer简化forward()dispatcher仅根据forward_metadata.is_prefill分流到_forward_prefill_pa/_forward_decode_pa验证结果配置PrefillDecode输出对齐Stage 1 baseline207 ms151 ms(基线)Stage 2 PA FA455 ms145 ms✓ 与 baseline 完全一致[MLA] use_paTrue ...调试日志确认_forward_prefill_pa实际被执行。已知问题 / 待跟进Prefill 退化 120%: 与 tp8 stage 1 数据持平 -1.6%差距巨大未充分定位根因。怀疑旧 cache 残留已修复cleanup commit双 BMM 在 attn_tp4 时每卡 8 headlaunch 开销显著待图模式验证npu_kv_rmsnorm_rope_cache在 attn_dp2 模式下首次 launch 被序列化Decode 持平与 tp8 持平表现一致图模式stage 4才能拿到收益需在 stage 3/4 定位 prefill 退化问题或引入混合方案prefill 走 legacy SDPAdecode 走 PA absorb。阶段 3 - 融合算子已完成于 2026-04-28实施内容改动位置备注LongcatFlashRMSNorm.forward用npu_rms_norm/npu_add_rms_norm融合 addnormline 33-58支持(x, residual)接口与 tp8 一致LongcatFlashMLP合并gate_projup_proj→MergedColumnParallelLinear再走npu_swigluline 491-5251 GEMM 1 fused activation 替代原 2 GEMM 2 element-wiseLongcatFlashDecoderLayer.forward改为残差链式传递4 处npu_add_rms_normline 970-1007节省 28 layer × 4 112 个独立 launch / stepload_weights增加 dense MLPgate_proj/up_proj→gate_up_proj装载line 1497 之后兼容 checkpoint 格式实测性能attn_tp4, batch2, seq1024阶段Prefill (steady)Decode avg说明Stage 1 baseline (legacy SDPA)207 ms151 msmanual SDPA 手写 RMSNorm/SiLUStage 2 (PAFA only)455 ms (120%)145 ms (-4%)PA 路径仅替换 KV cache attentionStage 3 (PAFA 融合算子)244 ms (18%)124 ms (-18%)加上npu_rms_norm/npu_add_rms_norm/gate_up_projnpu_swiglu验证✓ 输出与 baseline 一致computed as a weighted sum of the values...✓ NPU 利用率正常无 OOM 或超时待优化prefill 仍比 baseline 慢 ~37 ms推断来自kv_b_proj_w_k/w_vBMM 在 ND→NZ 转换的开销Decode 已经从 151 → 123 ms是 stage 2 stage 3 联合收益【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/AsNumpy N维数组对象

The N-Dimensional Array Object 【免费下载链接】asnumpy-docs 项目地址: https://gitcode.com/cann/asnumpy-docs ::: info This API section currently keeps a curated subset of representative APIs. Additional API documentation is temporarily hidden while …

2026/5/20 5:01:02 阅读更多

ops-collections高级特性解析：条件插入、异步操作与回调函数

ops-collections高级特性解析：条件插入、异步操作与回调函数【免费下载链接】ops-collections ops-collections是基于昇腾硬件的高性能容器模板库，提供运行在NPU上的static_map、dynamic_map、set等容器。利用最新的SIMT并发能力，支持对容器…

2026/5/20 5:00:22 阅读更多

规避UWB布线施工，纯视觉无感适配存量园区改造

规避UWB布线施工，纯视觉无感适配存量园区改造一、存量园区改造痛点：UWB先天不兼容既有场景各类成熟存量产业园区、智慧园区、商务楼宇、厂区后勤园区，普遍存在建成年限久、装修成型、结构固定、运营不能中断的现实特征。传统UWB高精度定位落地…

2026/5/20 5:00:22 阅读更多

从伺服电机到总线端子：手把手教你用EtherCAT搭建一个简易的‘两轴’运动控制Demo

从伺服电机到总线端子：手把手构建EtherCAT两轴运动控制原型在工业自动化领域，精确的运动控制往往意味着更高的生产效率和更稳定的产品质量。想象一下，当你需要让两个机械臂协同完成装配任务时，如何确保它们的动作像钟表齿轮般精准…

2026/5/20 5:56:17 阅读更多

RK3506J邮票孔核心板：三核A7架构如何重塑工业AIoT边缘设备设计

1. 项目概述：从一枚邮票孔核心板，看工业AIoT的“小而美”进化在嵌入式开发这个行当里待久了，你会发现一个有趣的现象：越是前沿的技术盛会，越能看见那些“小而美”的硬核产品。2025年7月的第九届瑞芯微开发者大会&#…

2026/5/20 5:56:17 阅读更多

AUTOSAR架构下LIN协议栈的配置与实战开发

1. LIN协议基础与AUTOSAR集成概述 LIN总线作为汽车电子领域最经济的通信解决方案，其单线传输特性与20Kbps的典型速率完美适配车窗控制、雨刷调节等低实时性场景。我在2018年参与某车型门控模块开发时，曾用LIN总线将BOM成本降低37%。这种单主机多从机架构…

2026/5/20 5:55:16 阅读更多

Sourcetree新手指南：从零配置到高效版本控制

1. Sourcetree入门：为什么选择图形化Git工具第一次接触版本控制时，我对着黑漆漆的命令行窗口敲git命令的手都在发抖。直到发现了Sourcetree这个神器，才真正体会到什么叫"可视化操作"。作为Atlassian公司出品的免费工具&#xff0…

2026/5/20 5:53:56 阅读更多

TLV320AIC3254音频编解码器：从DSP算法到低功耗设计的嵌入式开发全解析

1. 项目概述：从一颗音频编解码器芯片说起最近在做一个需要高保真音频采集与播放的项目，选型时又一次把目光投向了德州仪器（TI）的音频编解码器产品线。这次的主角是TLV320AIC3254，一颗在专业音频、消费电子和工业领域都…

2026/5/20 5:53:55 阅读更多

SimVision波形分析实战：从NC-Verilog仿真结果中快速定位Bug的5个技巧

SimVision波形分析实战：从NC-Verilog仿真结果中快速定位Bug的5个技巧面对复杂的数字电路设计，仿真验证是确保功能正确的关键环节。当NC-Verilog仿真完成后，工程师们常常会陷入海量波形信号的迷宫，不知从何入手分析问题。本文将分…

2026/5/20 5:53:35 阅读更多

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

顶伯在线语音工具背后的技术力量在人工智能浪潮中，语音交互正成为人机沟通的核心方式。顶伯作为行业领先的在线语音工具，凭借自主研发的深度学习架构，将文字转化为高度自然的语音，广泛应用于有声阅读、智能客服、教育辅助等领域。…

2026/5/20 0:00:25 阅读更多

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

全志V3s开发板实战：用Buildroot 2020.02.4定制最小Linux文件系统在嵌入式开发领域，构建一个精简高效的Linux文件系统往往是项目成功的关键第一步。全志V3s作为一款高性价比的ARM Cortex-A7芯片，搭配Buildroot这一经典构建工具，能…

2026/5/20 0:00:25 阅读更多

百考通：AI赋能期刊论文写作，智能生成优质内容

在学术研究领域，期刊论文的撰写是成果输出的关键环节，却也让众多科研工作者与学生倍感压力：选题迷茫、逻辑梳理困难、格式规范复杂、内容提炼耗时，严重拖慢了学术成果的发表节奏。百考通（https://www.baikaotongai.com…

2026/5/20 0:00:46 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/20 5:14:40 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/19 6:17:20 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/20 2:02:06 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/20 5:46:58 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/20 3:00:53 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/19 22:33:20 阅读更多

相关文章