CANN 容器化部署：Docker 与 K8s 实战

发布时间：2026/5/23 14:16:34

一、为什么需要容器化1.1 容器化优势裸机部署: 环境依赖复杂版本冲突扩缩容困难手动运维资源隔离差互相影响容器化部署: 环境一致性开箱即用弹性扩缩容自动运维资源隔离互不影响版本管理灰度发布1.2 CANN 容器架构┌──────────────────────────────────────┐ │ Kubernetes 集群 │ ├──────────────────────────────────────┤ │ ┌─────────────┐ ┌─────────────┐ │ │ │ Pod 0 │ │ Pod 1 │ │ │ │ ┌─────────┐ │ │ ┌─────────┐ │ │ │ │ │推理服务 │ │ │ │推理服务 │ │ │ │ │ └─────────┘ │ │ └─────────┘ │ │ │ │ /dev/davinci0│ │ /dev/davinci1│ │ │ └─────────────┘ └─────────────┘ │ ├──────────────────────────────────────┤ │ 宿主机 (Host OS) │ │ ┌──────────────────────────┐ │ │ │ CANN 驱动 Docker NPU │ │ │ └──────────────────────────┘ │ └──────────────────────────────────────┘二、Docker 环境搭建2.1 基础镜像# Dockerfile.cann-base FROM ubuntu:20.04 # 安装基础依赖 RUN apt-get update apt-get install -y \ build-essential \ cmake \ git \ wget \ rm -rf /var/lib/apt/lists/* # 安装 CANN COPY Ascend-cann-toolkit_8.2.RC1_linux-aarch64.run /tmp/ RUN /tmp/Ascend-cann-toolkit_8.2.RC1_linux-aarch64.run --install --quiet \ rm /tmp/Ascend-cann-toolkit_8.2.RC1_linux-aarch64.run # 设置环境变量 ENV ASCEND_HOME/usr/local/Ascend ENV PATH${ASCEND_HOME}/ascend-toolkit/bin:${ASCEND_HOME}/nnae/bin:${PATH} ENV LD_LIBRARY_PATH${ASCEND_HOME}/ascend-toolkit/lib64:${ASCEND_HOME}/driver/lib64:${LD_LIBRARY_PATH} # 验证安装 RUN npu-smi info WORKDIR /workspace2.2 构建推理镜像# Dockerfile.inference FROM cann-base:latest # 安装 Python RUN apt-get update apt-get install -y python3 python3-pip \ pip3 install --upgrade pip # 安装依赖 COPY requirements.txt /tmp/ RUN pip3 install -r /tmp/requirements.txt # 复制模型和代码 COPY model/ /workspace/model/ COPY src/ /workspace/src/ # 暴露端口 EXPOSE 50051 # 启动命令 CMD [python3, /workspace/src/server.py, --model, /workspace/model/model.om]2.3 构建与运行# 构建基础镜像dockerbuild-fDockerfile.cann-base-tcann-base:latest.# 构建推理镜像dockerbuild-fDockerfile.inference-tinference-server:latest.# 运行容器 (需要 NPU 设备)dockerrun-d\--nameinference\--device/dev/davinci0\--device/dev/davinci_manager\--device/dev/devmm_svm\--device/dev/hisi_hdc\-v/usr/local/Ascend:/usr/local/Ascend\-p50051:50051\inference-server:latest三、NPU 设备透传3.1 设备挂载参数# 必须挂载的设备dockerrun-d\--device/dev/davinci0\# NPU 设备节点--device/dev/davinci_manager\# NPU 管理器--device/dev/devmm_svm\# 设备内存管理--device/dev/hisi_hdc\# HDC 通信-v/usr/local/Ascend:/usr/local/Ascend\# CANN 驱动inference-server:latest# 挂载所有 NPU (多卡)dockerrun-d\--device/dev/davinci0\--device/dev/davinci1\--device/dev/davinci2\--device/dev/davinci3\--device/dev/davinci_manager\--device/dev/devmm_svm\--device/dev/hisi_hdc\-v/usr/local/Ascend:/usr/local/Ascend\inference-server:latest3.2 Docker Compose 配置# docker-compose.ymlversion:3.8services:inference:build:context:.dockerfile:Dockerfile.inferencecontainer_name:inference-serverrestart:unless-stoppedports:-50051:50051devices:-/dev/davinci0:/dev/davinci0-/dev/davinci_manager:/dev/davinci_manager-/dev/devmm_svm:/dev/devmm_svm-/dev/hisi_hdc:/dev/hisi_hdcvolumes:-/usr/local/Ascend:/usr/local/Ascend-./model:/workspace/modelenvironment:-ASCEND_HOME/usr/local/Ascend-PYTHONUNBUFFERED1deploy:resources:limits:memory:16Greservations:memory:8Gnginx:image:nginx:latestports:-80:80volumes:-./nginx.conf:/etc/nginx/nginx.confdepends_on:-inference四、Kubernetes 部署4.1 NPU Device Plugin# npu-device-plugin.ymlapiVersion:apps/v1kind:DaemonSetmetadata:name:ascend-npu-device-pluginnamespace:kube-systemspec:selector:matchLabels:name:ascend-npu-device-plugintemplate:metadata:labels:name:ascend-npu-device-pluginspec:tolerations:-key:CriticalAddonsOnlyoperator:ExistspriorityClassName:system-node-criticalcontainers:-name:npu-device-pluginimage:ascend-k8sdeviceplugin/amd64-npu-plugin:latestimagePullPolicy:IfNotPresentsecurityContext:privileged:truevolumeMounts:-name:device-pluginmountPath:/var/lib/kubelet/device-plugins-name:davincimountPath:/dev/davincivolumes:-name:device-pluginhostPath:path:/var/lib/kubelet/device-plugins-name:davincihostPath:path:/dev/davinci4.2 推理服务 Deployment# inference-deployment.ymlapiVersion:apps/v1kind:Deploymentmetadata:name:inference-servernamespace:defaultspec:replicas:3selector:matchLabels:app:inference-servertemplate:metadata:labels:app:inference-serverspec:containers:-name:inferenceimage:inference-server:latestimagePullPolicy:IfNotPresentports:-containerPort:50051name:grpcresources:limits:huawei.com/npu:1# 请求 1 张 NPUrequests:huawei.com/npu:1volumeMounts:-name:model-volumemountPath:/workspace/modelreadinessProbe:grpc:port:50051initialDelaySeconds:10periodSeconds:5livenessProbe:grpc:port:50051initialDelaySeconds:15periodSeconds:10volumes:-name:model-volumepersistentVolumeClaim:claimName:model-pvc---apiVersion:v1kind:Servicemetadata:name:inference-servicenamespace:defaultspec:selector:app:inference-serverports:-name:grpcport:50051targetPort:50051type:ClusterIP4.3 自动扩缩容# hpa.ymlapiVersion:autoscaling/v2kind:HorizontalPodAutoscalermetadata:name:inference-hpanamespace:defaultspec:scaleTargetRef:apiVersion:apps/v1kind:Deploymentname:inference-serverminReplicas:2maxReplicas:10metrics:-type:Resourceresource:name:cputarget:type:UtilizationaverageUtilization:70-type:Podspods:metric:name:inference_queue_sizetarget:type:AverageValueaverageValue:10behavior:scaleUp:stabilizationWindowSeconds:60policies:-type:Podsvalue:2periodSeconds:60scaleDown:stabilizationWindowSeconds:300policies:-type:Podsvalue:1periodSeconds:120五、资源限制与隔离5.1 NPU 资源配额# resource-quota.ymlapiVersion:v1kind:ResourceQuotametadata:name:npu-quotanamespace:inferencespec:hard:requests.huawei.com/npu:8limits.huawei.com/npu:8requests.cpu:32limits.cpu:64requests.memory:128Gilimits.memory:256Gi5.2 Pod 资源限制# pod-with-limits.ymlapiVersion:v1kind:Podmetadata:name:inference-podspec:containers:-name:inferenceimage:inference-server:latestresources:limits:huawei.com/npu:1cpu:8memory:32Girequests:huawei.com/npu:1cpu:4memory:16Gi六、监控与日志6.1 Prometheus 指标暴露fromprometheus_clientimportCounter,Histogram,Gauge,start_http_server# 定义指标INFERENCE_REQUESTSCounter(inference_requests_total,Total inference requests,[model_name,status])INFERENCE_LATENCYHistogram(inference_latency_seconds,Inference latency,[model_name],buckets[0.01,0.05,0.1,0.5,1.0,2.0,5.0])NPU_MEMORY_USAGEGauge(npu_memory_usage_bytes,NPU memory usage,[device])# 在推理中记录指标defpredict_with_metrics(model_name,input_data):starttime.time()try:outputserver.Inference(input_data)latencytime.time()-start INFERENCE_REQUESTS.labels(model_namemodel_name,statussuccess).inc()INFERENCE_LATENCY.labels(model_namemodel_name).observe(latency)returnoutputexceptExceptionase:INFERENCE_REQUESTS.labels(model_namemodel_name,statuserror).inc()raise# 启动指标服务器start_http_server(8000)6.2 Grafana 看板{dashboard:{title:CANN Inference Dashboard,panels:[{title:QPS,type:graph,targets:[{expr:rate(inference_requests_total[5m]),legendFormat:{{model_name}}}]},{title:P99 Latency,type:graph,targets:[{expr:histogram_quantile(0.99, rate(inference_latency_seconds_bucket[5m])),legendFormat:{{model_name}}}]},{title:NPU Memory,type:graph,targets:[{expr:npu_memory_usage_bytes,legendFormat:{{device}}}]}]}}七、常见问题问题原因解决方案容器内 NPU 不可用设备未挂载添加 --device 参数NPU 驱动版本不匹配镜像与宿主机驱动版本不一致使用相同版本的 CANN推理性能下降容器资源限制太严增加 CPU/内存限制Pod 无法调度NPU 资源不足扩容集群或减少副本数OOM Killed显存/内存超限增加资源限制或优化模型相关仓库ascend-docker- 昇腾 Docker 工具 https://gitee.com/ascend/ascend-dockerk8s-device-plugin- K8s NPU 插件 https://gitee.com/ascend/k8s-device-pluginascend-operator- K8s Ascend Operator https://gitee.com/ascend/ascend-operator

ComfyUI-Custom-Scripts自动完成终极指南：如何快速提升AI绘画提示词效率

ComfyUI-Custom-Scripts自动完成终极指南：如何快速提升AI绘画提示词效率【免费下载链接】ComfyUI-Custom-Scripts Enhancements & experiments for ComfyUI, mostly focusing on UI features 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-Custom-Sc…

2026/5/23 14:16:34 阅读更多

华为ENSP实战：VLAN+DHCP+静态路由+NAT实现多部门上网

1. 项目概述与实验目标最近在带新人做网络基础实验，发现很多朋友对出口NAT（网络地址转换）的配置，尤其是结合VLAN、DHCP和路由的完整流程，理解上总是差那么一口气。纸上得来终觉浅，绝知此事要躬行。正好手头…

2026/5/23 14:16:14 阅读更多

OpenPilot智能驾驶系统：如何实现300+车型的自动驾驶辅助？

OpenPilot智能驾驶系统：如何实现300车型的自动驾驶辅助？ 【免费下载链接】openpilot openpilot is an operating system for robotics. Currently, it upgrades the driver assistance system on 300 supported cars. 项目地址: https://gitcode.com/G…

2026/5/23 14:15:53 阅读更多

告别龟速下载！用WDS+PE脚本实现局域网秒传系统镜像（附详细配置文件）

企业级局域网镜像秒传方案：WDSPE脚本深度优化实战每次批量部署系统时，看着进度条像蜗牛一样缓慢移动，IT运维同事们的血压是不是也跟着一起飙升？传统PXE下载方式在带宽有限或网络波动时，不仅速度堪忧，还经…

2026/5/23 15:27:19 阅读更多

将OpenClaw智能体工作流接入Taotoken享受官方折扣与稳定链路

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度将OpenClaw智能体工作流接入Taotoken享受官方折扣与稳定链路在构建基于大模型的自动化工作流时，开发者常常面临两个核…

2026/5/23 15:27:19 阅读更多

为什么92%的社交App在AI Agent接入后用户停留时长暴跌？——资深架构师亲授5层调优框架

更多请点击： https://kaifayun.com 第一章：为什么92%的社交App在AI Agent接入后用户停留时长暴跌？ 当AI Agent以“智能助手”“聊天搭子”“情绪陪伴者”等名义大规模嵌入社交App时，产品团队普遍预期用户活跃度与停留时长将显著提…

2026/5/23 15:25:18 阅读更多

AI Agent在体脂管理中的临床级精度突破：基于3276名受试者的双盲对照试验（FDA Class II类器械预审中）

更多请点击： https://kaifayun.com 第一章：AI Agent在体脂管理中的临床级精度突破：基于3276名受试者的双盲对照试验（FDA Class II类器械预审中） 临床验证设计与核心指标达成本研究采用多中心、随机、双盲、平行对照…

2026/5/23 15:25:18 阅读更多

告别闪烁！用STM32和Simulink搞定LED的PWM调光（附仿真文件）

告别闪烁！用STM32和Simulink搞定LED的PWM调光（附仿真文件） LED照明在医疗设备、植物工厂等场景中，对光源稳定性要求极高。传统调光方案常因电路噪声或控制算法缺陷导致肉眼可见的闪烁，这不仅影响用户体验，更…

2026/5/23 15:25:18 阅读更多

国产多模态大模型 vs Claude：技术、场景与未来战局全解析

国产多模态大模型 vs Claude：技术、场景与未来战局全解析引言在AI浪潮席卷全球的今天，多模态大模型已成为技术竞争的前沿阵地。一边是依托庞大中文互联网生态、迅猛发展的国产军团（如通义千问、文心一言），另一边是以…

2026/5/23 15:24:37 阅读更多

红黑树完全指南：从五条性质到完整插入删除实现

引言在前面的树系列中，我们学习了二叉搜索树（BST）和 AVL 树。AVL 树通过严格的平衡条件（|BF| ≤ 1）保证 O(log n) 的性能，但代价是删除操作可能触发 O(log n) 次旋转。红黑树（Red-Black Tree&am…

2026/5/23 0:01:37 阅读更多

黎曼猜想：哲学 × 数学思维范式全链条

黎曼猜想：哲学数学思维范式全链条华夏之光永存｜七大数学猜想思维范式全链条第二篇开篇黎曼猜想被公认为数学史上最伟大的未解难题。希尔伯特曾说：“如果我沉睡百年后醒来，第一个问题就是：黎曼猜想证明了吗&…

2026/5/23 0:02:38 阅读更多

在Nodejs后端服务中集成稳定可靠的大模型能力

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Nodejs后端服务中集成稳定可靠的大模型能力应用场景类，针对需要构建智能对话或内容生成功能的后端工程师&#xff0…

2026/5/23 0:03:18 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/22 17:05:13 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/22 16:54:23 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/23 4:55:00 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/23 4:55:00 阅读更多

相关文章

ComfyUI-Custom-Scripts自动完成终极指南：如何快速提升AI绘画提示词效率

华为ENSP实战：VLAN+DHCP+静态路由+NAT实现多部门上网

OpenPilot智能驾驶系统：如何实现300+车型的自动驾驶辅助？

告别龟速下载！用WDS+PE脚本实现局域网秒传系统镜像（附详细配置文件）

将OpenClaw智能体工作流接入Taotoken享受官方折扣与稳定链路

为什么92%的社交App在AI Agent接入后用户停留时长暴跌？——资深架构师亲授5层调优框架

AI Agent在体脂管理中的临床级精度突破：基于3276名受试者的双盲对照试验（FDA Class II类器械预审中）

告别闪烁！用STM32和Simulink搞定LED的PWM调光（附仿真文件）

国产多模态大模型 vs Claude：技术、场景与未来战局全解析

红黑树完全指南：从五条性质到完整插入删除实现

黎曼猜想：哲学 × 数学 思维范式全链条

在Nodejs后端服务中集成稳定可靠的大模型能力

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

黎曼猜想：哲学 × 数学思维范式全链条

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)