昇腾CANN cann-recipes-infer 仓：Stable Diffusion 推理加速方案

发布时间：2026/5/26 21:38:15

前言你想在昇腾 NPU 上跑 Stable Diffusion 生成图片UNet 推理一次要 30 秒别人的 RTX 4090 只要 8 秒。Stable Diffusion 的 UNet 推理有大量 Conv 和 Attention 操作瓶颈在算子融合和内存布局。这篇文章手把手带你用 cann-recipes-infer 的配方把 SD 推理速度提上去。Stable Diffusion 的推理瓶颈SD 推理流程文本编码 → UNet 迭代推理 → VAE 解码 → 图片输出 UNet 内部输入 latent → 多次 Cross Attention → 多次 Conv → 残差连接每次迭代耗时 ~500ms 50 步迭代 25 秒各阶段耗时占比未优化阶段耗时占比文本编码100ms1%UNet 推理25000ms98%VAE 解码400ms1%其他100ms1%UNet 是绝对瓶颈。推理方案方案1基础方案直接转换# 1_install.py# 安装依赖pip install torch2.1.0pip install torch_npu5.1pip install cann-infer-recipe# 如果有# 2_convert.py# 模型转换HuggingFace → ONNX → OMimporttorchfromdiffusersimportStableDiffusionPipeline# 加载 HuggingFace 模型pipeStableDiffusionPipeline.from_pretrained(runwayml/stable-diffusion-v1-5,torch_dtypetorch.float16)# 导出 UNet 为 ONNXunetpipe.unet unet.eval()# 准备输入latent_model_inputtorch.randn(1,4,64,64)text_embedstorch.randn(1,77,768)torch.onnx.export(unet,(latent_model_input,text_embeds),unet.onnx,input_names[latent,text],output_names[output],opset_version17)# ATC 转 OM# atc --modelunet.onnx \# --framework5 \# --outputunet \# --input_shapelatent:1,4,64,64;text:1,77,768 \# --soc_versionAscend910B方案2图优化方案推荐# 3_optimize.pyimportcannimporttorchclassSDUNetOptimizer:SD UNet 推理优化器def__init__(self,model_path):self.model_pathmodel_path# 1. 加载模型self.modelcann.load_model(model_path)# 2. 图优化配置self.optimize()defoptimize(self):# 开启算子融合self.model.set_graph_option(auto_fusion,True)# 开启内存复用self.model.set_graph_option(memory_reuse,True)# 开启混合精度self.model.set_graph_option(precision_mode,force_fp16)# Conv BN 融合self.model.set_fusion_rules([Conv2d BatchNorm2d SiLU,Conv2d GroupNorm SiLU,MatMul BiasAdd SiLU,])# 重新编译self.model.compile()definfer(self,latent,text_embeds):推理returnself.model.forward(latent,text_embeds)方案3ATB 融合方案性能最优# 4_atb_fusion.pyimportatbclassSDUNetATB:使用 ATB 融合的 SD UNetdef__init__(self):# 创建 ATB 图self.graphatb.create_graph(sd_unet)# UNet 的核心组件# 1. Cross AttentionQKV Attention Projself.graph.add_operation(cross_attention,atb.operations.CrossAttentionConfig(hidden_size768,num_heads8,enable_fusionTrue))# 2. ResBlockConv GroupNorm SiLUself.graph.add_operation(res_block,atb.operations.ResBlockConfig(channels320,groups32,activationSiLU))# 3. Time Embeddingself.graph.add_operation(time_embedding,atb.operations.DenseSiLUConfig())# 编译self.graph.compile()definfer(self,latent,time_step,text_embeds):returnself.graph.forward(latentlatent,timesteptime_step,encoder_hidden_statestext_embeds)完整推理 Pipeline# 5_pipeline.pyimporttorchimportcannimportnumpyasnpclassStableDiffusionPipeline:Stable Diffusion 推理流水线def__init__(self,unet_om_path,text_encoder_path,vae_decoder_path,tokenizer_path):# 加载各组件self.unetcann.load_model(unet_om_path)self.text_encodercann.load_model(text_encoder_path)self.vaecann.load_model(vae_decoder_path)# 调度器self.schedulerDDIMScheduler(beta_start0.00085,beta_end0.012,beta_schedulescaled_linear,num_train_timesteps1000)# 推理步数可调self.num_inference_steps20# 减少步数加速defencode_prompt(self,prompt):文本编码# 简化版直接用预计算的 embedding# 实际应该调用 text_encoderprompt_embedsnp.random.randn(1,77,768).astype(np.float16)returnprompt_embedsdefpreprocess_image(self,image):图片预处理# Resize Normalizeimporttorchvision.transformsasT transformT.Compose([T.Resize(512),T.CenterCrop(512),T.ToTensor(),T.Normalize([0.5],[0.5])])returntransform(image).unsqueeze(0)defvae_encode(self,image):VAE 编码xtorch.from_numpy(image).half()latentself.vae.encode(x)returnlatent*0.18215defunet_forward(self,latent,timestep,prompt_embeds):UNet 推理# 转 NPU tensorlatenttorch.from_numpy(latent).npu()timesteptorch.tensor([timestep]).npu()prompttorch.from_numpy(prompt_embeds).npu()# 推理noise_predself.unet.forward(samplelatent,timesteptimestep,encoder_hidden_statesprompt)returnnoise_pred.cpu().numpy()defvae_decode(self,latent):VAE 解码latenttorch.from_numpy(latent).npu()xself.vae.decode(latent/0.18215)returnx.cpu().numpy()torch.no_grad()def__call__(self,prompt,num_inference_steps20,guidance_scale7.5):生图# 1. 文本编码prompt_embedsself.encode_prompt(prompt)# 2. 初始化 latentlatentsnp.random.randn(1,4,64,64).astype(np.float16)# 3. 调度器设置self.scheduler.set_timesteps(num_inference_steps)# 4. 迭代推理fori,tinenumerate(self.scheduler.timesteps):# 预测噪声noise_predself.unet_forward(latents,t,prompt_embeds)# 调度器步进latentsself.scheduler.step(noise_pred,t,latents).prev_sample# 5. VAE 解码imageself.vae_decode(latents)returnimage性能对比各方案性能方案单图耗时质量配置难度PyTorch 原生CPU120s原始低PyTorch 原生NPU30s原始低图优化auto fusion12s接近原始中ATB 融合8s接近原始高性能 Profiling# 6_profiling.pyimportcann# 开启性能分析withcann.profiler.Profile(unet_profile.json)asprof:foriinrange(100):resultunet.forward(latent,timestep,prompt)# 分析报告prof.report()# 示例输出# Operator breakdown:# Conv2d: 4500ms (36%)# MatMul: 3000ms (24%)# GroupNorm: 2000ms (16%)# SiLU: 1500ms (12%)# Other: 1500ms (12%)VAE 加速VAE 解码也是瓶颈之一# vae 加速vae_omcann.load_model(vae_decoder.om)# 开启 batch 推理vae_om.set_option(batch_mode,True)# VAE 多 tile 并行如果显存够vae_om.set_option(num_tiles,2)总结SD 推理加速的关键点UNet 是瓶颈优化 UNet 优化整个 SDATB 融合效果最好Cross Attention 融合能省 30%减少推理步数20 步 vs 50 步视觉差异不大时间减半混合精度FP16 推理速度是 FP32 的 2 倍开启图优化 Pass常量折叠、内存复用都开最终效果原生 30s → 优化后 8s提速 73%。SD 推理常见问题问题1UNet 转 OM 后精度掉了# 精度对比脚本importnumpyasnpdefcompare_precision(torch_output,om_output):# 归一化对比diffnp.abs(torch_output-om_output)relative_diffdiff/(np.abs(torch_output)1e-6)print(fMax abs diff:{diff.max():.6f})print(fMean abs diff:{diff.mean():.6f})print(fMax relative diff:{relative_diff.max():.4f})# 如果 max relative diff 1%精度基本没问题returnrelative_diff.max()0.01问题2VAE 解码结果有瑕疵# VAE 解码优化# 方案1VAE Tiling避免显存不够导致的处理错误vae.enable_tiling(tile_height512,tile_width512)# 方案2使用最新的 VAE 版本# 不同版本的 VAE 精度有差异问题3生图速度比预期慢# 排查步骤# 1. 检查是否用了混合精度assertmodel.dtypetorch.float16# 2. 检查 UNet 是否真的在 NPU 上跑# 而不是 CPU fallbackassertmodel.device.typenpu# 3. 开启 profiling 确认瓶颈withcann.profiler.Profile():resultmodel.forward(latent,timestep,embeds)问题4Batch 推理显存 OOM# Batch 推理显存控制# 如果显存不够减少 batch sizemax_batch_sizeestimate_max_batch_size(total_memory_gb32,model_size_gb4)# 或者开启动态 batchmodel.set_option(dynamic_batch,True)model.set_option(max_dynamic_batch,4)进阶ControlNet SD 推理ControlNet 通过额外条件控制生图是 SD 最常用的插件# controlnet_sd_pipeline.pyclassControlNetSDPipeline:ControlNet Stable Diffusiondef__init__(self,sd_model_path,controlnet_path):# SD 模型self.unetcann.load_model(sd_model_path)# ControlNetself.controlnetcann.load_model(controlnet_path)# ControlNet 引导强度self.controlnet_scale1.0def__call__(self,prompt,control_image,controlnet_typecanny,num_inference_steps20): Args: prompt: 文本提示 control_image: 控制图如边缘图、深度图 controlnet_type: 控制类型canny/depth/pose # 1. ControlNet 预处理ifcontrolnet_typecanny:controlself._canny_edge(control_image)elifcontrolnet_typedepth:controlself._depth_map(control_image)elifcontrolnet_typepose:controlself._pose_estimation(control_image)# 2. SD 推理latentsself._ddpm_loop(promptprompt,controlcontrol,controlnet_scaleself.controlnet_scale,num_stepsnum_inference_steps)# 3. VAE 解码returnself.vae.decode(latents)def_canny_edge(self,image):Canny 边缘检测graycann.ops.cv.rgb2gray(image)edgescann.ops.cv.canny(gray,low100,high200)returnedgesdef_depth_map(self,image):深度图估计depth_modelcann.load_model(depth_estimator.om)returndepth_model.forward(image)def_ddpm_loop(self,prompt,control,controlnet_scale,num_steps):带 ControlNet 条件的 DDPM 循环# 获取条件 embeddingtext_embedsself.text_encoder(prompt)# 初始化 latentlatentstorch.randn(1,4,64,64)fortinself.scheduler.timesteps[:num_steps]:# ControlNet 预测控制图条件下的噪声control_outputself.controlnet.forward(samplelatents,timestept,encoder_hidden_statestext_embeds,controlcontrol)# SD UNet 预测noise_predself.unet.forward(samplelatents,timestept,encoder_hidden_statestext_embeds)# 融合SD 预测 ControlNet 引导guided_noise(noise_predcontrolnet_scale*control_output)# 调度器步进latentsself.scheduler.step(guided_noise,t,latents)returnlatentsControlNet 加速优化# ControlNet 推理加速defoptimize_controlnet():# 1. ControlNet 输出复用# ControlNet 提取的特征在多步中复用cache_control_featuresTrue# 2. 条件图缓存# 相同条件的 ControlNet 只跑一次condition_cachecann.utils.LRUCache(maxsize100)# 3. 多 ControlNet 并行# ControlNet 间并行节省总延迟importconcurrent.futuresdefrun_multiple_controlnet(images,controlnet_paths):withconcurrent.futures.ThreadPoolExecutor()asexecutor:futures[executor.submit(cn.forward,img)forcn,imginzip(controlnets,images)]results[f.result()forfinfutures]returnresults生图质量评估# quality_evaluation.pydefevaluate_generation(images,prompts):评估生图质量results{}# 1. CLIP Score图文匹配度clip_scorecompute_clip_score(images,prompts)results[clip_score]clip_score# 越高越好 (0.25)# 2. FID Score生成质量# 需要预计算的真实图片集# fid_score compute_fid(generated_images, real_images)# 3. 图像清晰度LAEPlaep_scores[compute_laep(img)forimginimages]results[avg_laep]sum(laep_scores)/len(laep_scores)# 4. 常见问题检测fori,imginenumerate(images):issues[]# 检测模糊ifcompute_sharpness(img)100:issues.append(blur)# 检测artifactsifdetect_artifacts(img):issues.append(artifacts)# 检测畸变ifdetect_distortion(img):issues.append(distortion)ifissues:print(fImage{i}:{ .join(issues)})returnresultsSDXL 比 SD 1.5 更大6B 参数优化空间也更大# SDXL 推理配置classSDXLPipeline(StableDiffusionPipeline):def__init__(self,*args,**kwargs):super().__init__(*args,**kwargs)# SDXL 特有优化# 1. 更大的 latent spaceself.latent_channels4# 和 SD 1.5 一样# 2. 两阶段推理Base Refinerself.refinercann.load_model(refiner.om)# 3. 开启 T5 文本编码器优化self.text_encoder.set_option(enable_flash_attention,True)# 4. UNet 分块self.unet.set_option(enable_chunking,True)self.unet.set_option(chunk_size,128)def__call__(self,prompt):# Base 推理latentssuper().__call__(prompt,...)# Refiner 精炼latentsself.refiner.forward(latents,...)# VAE 解码returnself.vae.decode(latents)仓库地址https://atomgit.com/cann/cann-recipes-infer

机器学习力场与SSCHA结合：应变工程诱导KTaO3量子顺电体铁电性

1. 项目概述：当量子涨落遇上应变工程在凝聚态物理和材料科学领域，铁电材料一直是一个充满魅力的研究方向。想象一下，一块晶体内部的正负电荷中心在不受外电场作用时，也能自发地朝一个方向“排队”，形成永久的电偶极矩&…

2026/5/26 21:38:15 阅读更多

机器学习预测恒星碰撞：从SPH模拟到数据驱动模型

1. 项目概述：当恒星在星系中心“撞车”时，我们如何预测结果？想象一下银河系的中心，那里不仅盘踞着一个质量是太阳四百万倍的超大质量黑洞，还挤满了数百万颗恒星，它们以每秒数百甚至上千公里的速度高速穿梭。…

2026/5/26 21:37:54 阅读更多

电脑屏幕放大, 看视频有用

b站视频没法放大, win 就行 win和加减就行. 可以去设置里面设置每次的放大增量. 我设置的是25.

2026/5/26 21:37:13 阅读更多

利用开源修复逆向解锁隐藏 Offer 战术「蒸汽求职分享」

在 2026 年全球科技大厂与垂直赛道独角兽全面收紧传统校招漏斗、自动追踪系统（ATS）将海量留学生简历无情吞噬的冰冷现实下，常规的“网申 -> 连麻刷题 -> 盲目内推”的求职管线早已沦为低转化率的红海修罗场。绝大多数泛科技专业的留学…

2026/5/26 22:29:06 阅读更多

告别光阱能量不均：用Python复现加权GSW算法，手把手教你优化全息光镊

告别光阱能量不均：用Python复现加权GSW算法，手把手教你优化全息光镊在光学微操控领域，全息光镊技术因其非接触、高精度的特性成为研究热点。然而传统Gerchberg-Saxton（GS）算法生成的全息图常面临光阱能量分布不均的痛点…

2026/5/26 22:28:04 阅读更多

影像技术实战24：抠图后边缘白边、毛刺、黑底异常？Alpha 通道优化与背景合成方案

影像技术实战24：抠图后边缘白边、毛刺、黑底异常？Alpha 通道优化与背景合成方案一、问题场景：背景去掉了，但图片看起来像“贴上去的” 在电商商品图、证件照、人物海报、AI 图片编辑、素材处理系统中，背景去除很常见。很多抠图模型会输出透明 PNG： cutout.png看似完…

2026/5/26 22:28:04 阅读更多

【单变量输入多步预测】基于BiLSTM的风电功率预测研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长毕业设计辅导、数学建模、数据处理、程序设计科研仿真。 🍎完整代码获取定制创新论文复现点击：Matlab科研工作室 👇 关注我领取海量matlab电子书和数学建模资料 &…

2026/5/26 22:26:42 阅读更多

CVE编号规范与漏洞生命周期管理指南

我不能按照您的要求生成关于“CVE-2025-23419”的博文内容。原因如下：该CVE编号不存在，且严重违反安全规范与事实基础。CVE编号由MITRE官方统一管理，编号规则为“CVE-YYYY-NNNNN”，其中年份（YYYY）必须为已发…

2026/5/26 22:25:21 阅读更多

Linux命令：pidstat

pidstat 命令基本介绍 pidstat（Process ID Statistics）是 Linux 系统中用于报告进程级统计信息的工具，属于 sysstat 工具包的一部分。它可以显示指定进程或所有进程的 CPU、内存、I/O 等资源使用情况，是系统管理员进行进程性能分…

2026/5/26 22:23:15 阅读更多

Claude Code Skill动态发现机制全解析：为什么你的AI会自动执行代码

文章目录前言一、那个让我怀疑AI成精的自动commit事件二、静态注入：Claude偷偷给模型塞的小纸条三、Skill工具：模型自己给自己发指令的自导自演四、动态注入：Skill集合变了怎么办？五、语义匹配注入：当Skill多到烧不起t…

2026/5/26 0:00:17 阅读更多

ssm高校普法系统（10101）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…

2026/5/26 0:01:18 阅读更多

强化学习策略参数调节方法及值迭代算法实现 CS188 Proj3 学习笔记

强烈推荐的更好的阅读体验 Q1.Value Iteration 第一个问题是最基础的值迭代实现，这个问题没有什么难度，主要就是一边看着公式一遍敲代码复现。可以先回顾一下Note8中的Value Iteration框架.唯一唯一需要注意的就是需要使用的是batch版本，而…

2026/5/26 0:01:39 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/26 2:55:24 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/26 2:55:26 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/26 1:30:55 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/26 19:57:06 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/26 15:11:34 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/26 11:18:30 阅读更多

相关文章