手写算子优化在上华为昇腾910 Ascend A3 上比官方引擎vLLM-Ascend 快约 25%

发布时间：2026/5/28 7:04:22

Ascend-super在 Ascend A3 上比 vLLM-Ascend 快约 25%我最近在一个从零实现的大模型推理引擎里把 DeepSeek-R1-Distill-Qwen-7B 的 Ascend A3 单 batch decode 性能推进到了一个很有意思的位置在同一台 Ascend A3、同一模型、同一 prompt、同样生成 128 tokens 的条件下Ascend-superdirect.so路径达到了约47.1 tok/s相比vLLM-Ascendbaseline 的37.639 tok/s快约25.1%相比torch_npubaseline 的34.627 tok/s快约36.0%。这不是调用 PyTorch、Transformers 或 vLLM 的结果而是项目里的 C / AscendCL / ACLNN 直接推理路径。项目地址GitHub:https://github.com/luogantt/LLM-inference-engine对应 tag:https://github.com/luogantt/LLM-inference-engine/tree/ascend-super-vs-vllm-47tok拉取代码gitclone https://github.com/luogantt/LLM-inference-engine.gitcdLLM-inference-enginegitcheckout ascend-super-vs-vllm-47tok测试环境硬件Ascend A3 模型DeepSeek-R1-Distill-Qwen-7B batch1 prompt黑格尔的哲学思想可以概括为 max_new_tokens128 max_seq800说明这里的 PyTorch baseline 使用torch_npu在 Ascend/NPU 上运行。它是最接近常规 torch 推理体验的对照组本文主结论比较的是同一块 Ascend A3 上的torch_npu、vLLM-Ascend和本项目 direct.so路径。结果汇总路径速度相对 Ascend-supertorch_npu baseline34.627 tok/sAscend-super 快约 36.0%vLLM-Ascend baseline37.639 tok/sAscend-super 快约 25.1%Ascend-super direct.so约 47.1 tok/s1.00x计算方式Ascend-super vs torch_npu: (47.1 / 34.627 - 1) * 100% 36.0% Ascend-super vs vLLM-Ascend: (47.1 / 37.639 - 1) * 100% 25.1%torch_npu baseline测试命令cd~/LLM-inference-engineexportASCEND_VISIBLE_DEVICES4python python_infer_ascend.py\--model./deepseek-r1-7b\--prompt黑格尔的哲学思想可以概括为\--max-new-tokens128\--max-seq800\--devicenpu:0\--dtypefloat16\21|teetorch_npu_128.log关键 log performance generated_tokens128 elapsed_s3.696 tokens_per_s34.627vLLM-Ascend baselinevLLM-Ascend在 A3 上需要使用匹配 A3 的安装包或源码构建。普通 A2 wheel 会报类似下面的错误Current device type: AscendDeviceType.A3 does not match the installed versions device type: AscendDeviceType.A2本次 baseline 已在 A3 版本vLLM-Ascend路径上跑通。测试脚本cd~/LLM-inference-enginecatvllm_ascend_offline_test.pyPY import time from vllm import LLM, SamplingParams MODEL ./deepseek-r1-7b PROMPT 黑格尔的哲学思想可以概括为 sampling SamplingParams(temperature0.0, max_tokens128) llm LLM( modelMODEL, tokenizerMODEL, trust_remote_codeTrue, dtypefloat16, max_model_len800, max_num_seqs1, gpu_memory_utilization0.90, enforce_eagerTrue, ) llm.generate([PROMPT], sampling) t0 time.perf_counter() outputs llm.generate([PROMPT], sampling) t1 time.perf_counter() out outputs[0].outputs[0] new_tokens len(out.token_ids) elapsed t1 - t0 print( generated text ) print(out.text) print() print( performance ) print(fgenerated_tokens{new_tokens}) print(felapsed_s{elapsed:.6f}) print(ftokens_per_s{new_tokens / elapsed:.3f}) PY运行命令cd~/LLM-inference-enginesource~/venvs/vllm-ascend/bin/activatemkdir-p~/ascend/logunsetASCEND_RT_VISIBLE_DEVICESexportASCEND_VISIBLE_DEVICES4exportPYTORCH_NPU_ALLOC_CONFmax_split_size_mb:256 python vllm_ascend_offline_test.py21|teevllm_ascend_offline_128.log关键 logProcessed prompts: 100%|██████████| 1/1 [00:0300:00, 3.40s/it, est. speed input: 2.35 toks/s, output: 37.65 toks/s] performance generated_tokens128 elapsed_s3.400694 tokens_per_s37.639生成结束后的 shutdown 阶段可能出现Engine core proc EngineCore died unexpectedly, shutting down client.这条日志出现在已经打印generated_tokens128和tokens_per_s37.639之后不影响这次性能数据。Ascend-super direct .so本项目的Ascend-super路径不走 PyTorch graph也不走 vLLM engine而是通过 Python tokenizer 调用 C 动态库python_infer.py - build/libllm_ascend.so - AscendCL / ACLNN编译cd~/LLM-inference-enginemake-fMakefile.cuda_lib clean-libmake-fMakefile.cuda_lib lib-ascendASCEND_HOME/usr/local/Ascend/cann-8.5.1推理命令cd~/LLM-inference-enginemkdir-p~/ascend/logexportASCEND_VISIBLE_DEVICES4exportASCEND_DEVICE_ID0exportASCEND_LOAD_WEIGHTSallexportASCEND_WEIGHT_LOAD_LOG0exportASCEND_TIME_LOG_FILE0exportASCEND_HOST_RAW_CACHE0exportASCEND_RUN_EMBED1exportASCEND_DIRECT_DECODEall_layers_refexportASCEND_REF_CACHE_WEIGHTS1exportASCEND_REF_CACHE_LOG0exportASCEND_REF_KV_CACHE1exportASCEND_REF_U16_WEIGHTS1exportASCEND_REF_FAST_DOT1exportASCEND_REF_DOT40exportASCEND_REF_NEON_DOT1exportASCEND_ATTN_BACKENDcpuexportASCEND_QKV_BACKENDaclnnexportASCEND_QKV_FUSE_WEIGHTS1exportASCEND_QKV_FALLBACK0exportASCEND_QKV_LOG0exportASCEND_MLP_BACKENDaclnnexportASCEND_MLP_FUSE_GATE_UP1exportASCEND_MLP_FALLBACK0exportASCEND_MLP_LOG0exportASCEND_ATTN_PROJ_BACKENDaclnnexportASCEND_ATTN_PROJ_FALLBACK0exportASCEND_ATTN_PROJ_LOG0exportASCEND_LM_HEAD_BACKENDaclnnexportASCEND_LM_HEAD_FALLBACK0exportASCEND_LM_HEAD_LOG0exportASCEND_ACLNN_CUBE_MATH_TYPE0exportASCEND_REF_LINEAR_THREADS16exportASCEND_REF_ATTN_LINEAR_THREADS16exportASCEND_REF_ATTN_THREADS16exportASCEND_REF_ATTN_THREAD_MIN_SEQ32exportASCEND_REF_MLP_THREADS24exportASCEND_REF_DOWN_THREADS24exportASCEND_LM_HEAD_THREADS16exportASCEND_REF_PROFILE_LAYERS0exportASCEND_REF_PROFILE_TOKEN_LIMIT0python python_infer.py\--model./deepseek-r1-7b\--lib./build/libllm_ascend.so\--prompt黑格尔的哲学思想可以概括为\--max-new-tokens128\--max-seq800\--tokenizer-backend tokenizers\--no-chat-template\21|teeascend_super_128.log关键 log[Ascend][time] decode all_layers_ref finished, token102989, pos117, elapsed_ms21.191644 [Ascend][time] decode all_layers_ref finished, token109732, pos118, elapsed_ms21.171014 [Ascend][time] decode all_layers_ref finished, token54926, pos119, elapsed_ms21.191515 [Ascend][time] decode all_layers_ref finished, token100116, pos120, elapsed_ms21.187475 [Ascend][time] decode all_layers_ref finished, token9370, pos121, elapsed_ms21.103363 [Ascend][time] decode all_layers_ref finished, token104380, pos122, elapsed_ms21.098643 [Ascend][time] decode all_layers_ref finished, token104734, pos123, elapsed_ms20.984602 [Ascend][time] decode all_layers_ref finished, token101036, pos124, elapsed_ms21.112034 [Ascend][time] decode all_layers_ref finished, token26850, pos125, elapsed_ms21.102433 [Ascend][time] decode all_layers_ref finished, token101140, pos126, elapsed_ms21.126373 [Ascend][time] decode all_layers_ref finished, token3837, pos127, elapsed_ms21.154024 [Ascend][time] decode all_layers_ref finished, token99720, pos128, elapsed_ms21.195795 [Ascend][time] decode all_layers_ref finished, token85106, pos129, elapsed_ms21.228775 [Ascend][time] decode all_layers_ref finished, token100692, pos130, elapsed_ms21.235385 [Ascend][time] decode all_layers_ref finished, token104734, pos131, elapsed_ms21.313266 [Ascend][time] decode all_layers_ref finished, token109151, pos132, elapsed_ms21.418098 [Ascend][time] decode all_layers_ref finished, token33108, pos133, elapsed_ms21.233564 [Ascend][time] decode all_layers_ref finished, token100466, pos134, elapsed_ms21.346556 [Ascend][time] decode all_layers_ref finished, token1773, pos135, elapsed_ms21.434498 [Ascend][time] decode all_layers_ref finished, token100220, pos136, elapsed_ms21.227135最后一个 token 的粗略换算1000 / 21.227135 47.11 tok/s为什么会快这个优化不是靠简单换框架而是沿着 decode 热路径做减法权重常驻设备侧减少重复加载和格式转换。QKV 使用 fused weight一次 ACLNN matmul 输出 Q/K/V减少 matmul 次数。MLP gate/up 融合降低 decode 阶段的小 batch 调度开销。lm_head 使用 ACLNN argmax 路径避免把完整 logits 转成 Python / torch 侧张量。KV cache、U16 权重缓存、host buffer 复用降低每 token 的内存分配和拷贝成本。单 batch decode 场景下避开通用框架调度层把注意力和残差路径尽可能压到低开销实现。vLLM-Ascend 是优秀的通用推理框架强项在服务化、调度、多并发、PagedAttention 和生态集成而Ascend-super这条路径更像是针对单 batch decode 的极限实验把通用性让位给直接、短路径和可控的算子调度。如何复现模型下载如果本地没有模型可以用仓库里的下载脚本cd~/LLM-inference-engine pipinstall-Umodelscope python download_model.py\--sourcemodelscope\--modeldeepseek-ai/DeepSeek-R1-Distill-Qwen-7B\--local-dir ./deepseek-r1-7b或者使用 HuggingFacepipinstall-Uhuggingface_hub python download_model.py\--sourcehuggingface\--modeldeepseek-ai/DeepSeek-R1-Distill-Qwen-7B\--local-dir ./deepseek-r1-7b结论在这组实测里Ascend-superdirect.so路径已经超过了常规torch_npubaseline也超过了vLLM-Ascendbaselinetorch_npu baseline: 34.627 tok/s vLLM-Ascend baseline: 37.639 tok/s Ascend-super direct .so: 约 47.1 tok/s也就是说在 DeepSeek-R1-Distill-Qwen-7B、Ascend A3、单 batch、128 tokens decode 这个具体场景下一个从零手写的 AscendCL / ACLNN 推理路径已经可以比 vLLM-Ascend 快约一个四分之一的量级也就是约 25%。下一步目标很直接继续压缩 decode 热路径把 47 tok/s 推到50 tok/s。

别再折腾VS了！用Dev-C++ 5.11 + OpenCV 2.4.10 搞定图像处理入门（附完整链接库清单）

轻量级图像处理入门：Dev-C与OpenCV极简配置指南为什么选择Dev-C作为OpenCV学习环境？每次看到新手在Visual Studio里挣扎着配置OpenCV环境时，我总会想起自己十年前踩过的那些坑。庞大的安装包、复杂的项目属性设置、数不清的依赖项——这些对于…

2026/5/28 7:04:22 阅读更多

Ozon AI 竞品分析与智能筛选怎么选？从工具挑选到实操全流程，轻松搞定跨境选品

做 Ozon 跨境的小伙伴，是不是总被选品难、竞品分析繁、筛选效率低这些问题困住？每天泡在平台数据里扒销量、算利润、盯对手，耗时耗力还容易踩坑！其实选对 Ozon AI 工具，靠Ozon AI 竞品分析和智能筛选就能把复杂事变简单…

2026/5/28 7:04:02 阅读更多

SystemC与FMI集成框架在嵌入式系统开发中的应用

1. SystemC与FMI集成框架概述在嵌入式系统开发领域，虚拟平台（Virtual Platform, VP）已成为软件先行开发的关键基础设施。传统基于SystemC TLM的VP能够精确模拟SoC硬件行为，允许开发者在物理芯片流片前完成80%以上的软件开发和基础…

2026/5/28 7:01:20 阅读更多

NFC天线设计翻车实录：从线圈自谐振到匹配网络，我是如何用NFC Antenna Tool调试成功的

NFC天线设计实战：从自谐振陷阱到精准匹配的调试全记录那天下午，当第5版PCB依然无法稳定读取标签时，实验室的空调冷风突然变得格外刺骨。作为一款智能门锁的核心功能，NFC模块的反复失效正在拖累整个项目进度。在排除了芯片、供电、…

2026/5/28 7:59:05 阅读更多

Qwen3.7-Max闯入Code Arena全球前四，成本低性能强挑战顶尖模型

【导语：今日Code Arena最新榜单出炉，阿里Qwen3.7-Max以1541分闯入全球前四，超越GPT-5.5、Gemini 3.5 Flash等顶尖模型，成为全球编程模型竞技场上唯一上榜的中国厂商。】Qwen3.7-Max：编程竞技赛场的黑马在Code Arena榜单…

2026/5/28 7:58:45 阅读更多

如何让AI为应用实现自定义域名邮箱发验证码？

大家在使用使用Kanlite轻看板的时候，收到的验证码邮件，发件人是：noreplykanlite.xyz。发件人邮件地址后缀使用的是自己的域名。如下图所示：这是怎么实现的呢？实现方式有很多种，阿里云、腾讯云的企业邮箱功能…

2026/5/28 7:58:04 阅读更多

2026年十大电磁流量计品牌厂家——最好用的仪表都在这里！

核心结论：2026年电磁流量计市场呈现“国产加速崛起、进口领跑高端”的双轨格局。综合技术实力、用户口碑与场景适配，广东康宝莱智慧水务、重庆川仪、青天特克、EH（德国）、科隆（德国）位居前五。市政污水选康…

2026/5/28 7:57:24 阅读更多

猫抓Cat-Catch：2024年浏览器资源嗅探与下载终极指南

猫抓Cat-Catch：2024年浏览器资源嗅探与下载终极指南【免费下载链接】cat-catch 猫抓浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓Cat-Catch是一款强大的浏览器资…

2026/5/28 7:57:04 阅读更多

qmcdump深度解析：打破QQ音乐格式壁垒的终极解决方案

qmcdump深度解析：打破QQ音乐格式壁垒的终极解决方案【免费下载链接】qmcdump 一个简单的QQ音乐解码（qmcflac/qmc0/qmc3 转 flac/mp3），仅为个人学习参考用。项目地址: https://gitcode.com/gh_mirrors/qm/qmcdump 你是否曾…

2026/5/28 7:57:04 阅读更多

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

KV Cache 是大模型自回归生成任务的关键优化技术，通过“空间换时间”策略缓存历史 Key 和 Value 向量，将推理复杂度从 O(n) 降至 O(n)。文章阐述了语义缓存与前缀精确匹配两种核心范式，深入分析了 KV Cache 的技术底层原理、工程化应用及规模…

2026/5/28 0:00:48 阅读更多

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

在数字化转型加速的今天，物流企业面临的最大痛点之一就是信息孤岛——ERP、电商平台、智能硬件、OMS/TMS/WMS等系统各自为政，数据无法自由流转，导致人工操作繁琐、效率低下、出错率高。特别是在跨境物流领域，亚马逊、Shopee、TikT…

2026/5/28 0:02:48 阅读更多

Windows Defender终极恢复指南：5种强力方法解决禁用问题

Windows Defender终极恢复指南：5种强力方法解决禁用问题【免费下载链接】no-defender A slightly more fun way to disable windows defender firewall. (through the WSC api) 项目地址: https://gitcode.com/GitHub_Trending/no/no-defender 当你的Windo…

2026/5/28 0:04:54 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/28 4:33:02 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/28 3:32:24 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/28 3:32:25 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/27 20:16:23 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/27 15:51:09 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/27 12:55:08 阅读更多

相关文章