xllm部署vlm模型全流程

发布时间：2026/7/2 11:34:57

xllm 部署 VLM 模型全流程本文档介绍在昇腾 NPU(A2 / A3)环境下,使用 xllm 部署多模态 VLM 模型的完整流程:拉取镜像 → 挂载容器 → (可选)编译 → 拉起服务 → 功能 / 性能 / 精度测试。VLM 与 LLM 部署的主要差异:启动命令需增加--backendvlm,且功能/性能/精度测试使用 chat(多模态)接口与 evalscope 工具。目录1. 拉镜像与挂载2. 编译 xllm(仅 dev 镜像)3. 单机拉起服务4. 功能性测试5. 性能测试6. 精度测试占位符说明文中xxx为需替换的占位符:占位符含义docker_name容器名称(自定义)docker_tap镜像 tag,可用docker images查看xllm_pathxllm 可执行文件路径model_path模型权重路径ip服务器 IPport服务端口(自定义)model_name模型名称(用于请求体)1. 拉镜像与挂载1.1 拉取镜像# A2 arm 机器dockerpull quay.io/jd_xllm/xllm-ai:xllm-dev-a2-arm-20260306# A3 arm 机器dockerpull quay.io/jd_xllm/xllm-ai:xllm-dev-a3-arm-20260306其他特定镜像可在 Quay 自行下载。说明dev镜像不自带xllm;release镜像自带 xllm,路径为/usr/local/bin/xllm。镜像标签中hc为 A3 镜像,hb为 A2 镜像。1.2 挂载并启动容器将docker_name替换为容器名,docker_tap替换为镜像 tag:dockerrun--namedocker_name-d\--privileged\--networkhost\--ipchost\--device/dev/davinci_manager\--device/dev/devmm_svm\--device/dev/hisi_hdc\-v/export:/export\-v/usr/local/dcmi:/usr/local/dcmi\-v/usr/local/bin/npu-smi:/usr/local/bin/npu-smi\-v/usr/local/Ascend/driver:/usr/local/Ascend/driver\-v/etc/ascend_install.info:/etc/ascend_install.info\-w/export\-i-tdocker_tapbash容器启动后,可通过以下命令重新进入:dockerexec-itdocker_namebash2. 编译 xllm(仅 dev 镜像)若拉取的是dev镜像,需额外编译 xllm:gitclone https://github.com/jd-opensource/xllmcdxllm# 首次需安装 pre-commitpipinstallpre-commit pre-commitinstallgitsubmodule update--init--recursivepython setup.py build编译完成后,xllm 可执行文件路径为:当前 xllm 路径/build/xllm/core/server/xllm3. 单机拉起服务模型权重可通过 huggingface、hf-mirror、魔乐社区、魔搭社区(ModelScope)下载。3.1 准备日志目录mkdirlogs3.2 设置环境变量exportPYTHON_INCLUDE_PATH$(python3 -c from sysconfig import get_paths; print(get_paths()[include]))exportPYTHON_LIB_PATH$(python3 -c from sysconfig import get_paths; print(get_paths()[include]))exportPYTORCH_NPU_INSTALL_PATH/usr/local/libtorch_npu/exportPYTORCH_INSTALL_PATH$(python3-cimport torch, os;print(os.path.dirname(os.path.abspath(torch.__file__))))exportLIBTORCH_ROOT$(python3-cimport torch, os;print(os.path.dirname(os.path.abspath(torch.__file__))))exportLD_LIBRARY_PATH/usr/local/libtorch_npu/lib:$LD_LIBRARY_PATHsource/usr/local/Ascend/ascend-toolkit/set_env.shsource/usr/local/Ascend/nnal/atb/set_env.shexportPYTORCH_NPU_ALLOC_CONFexpandable_segments:TrueexportNPU_MEMORY_FRACTION0.9exportATB_WORKSPACE_MEM_ALLOC_ALG_TYPE3exportATB_WORKSPACE_MEM_ALLOC_GLOBAL1exportOMP_NUM_THREADS12exportHCCL_CONNECT_TIMEOUT7200exportLD_PRELOAD/usr/lib64/libtcmalloc.so.4:$LD_PRELOADexportPROFILING_MODEdynamic# 清理历史日志与残留\rm-rf/root/atb/log/\rm-rf/root/ascend/log/\rm-rf/root/mindie/\rm-rf~/dynamic_profiling_socket_*\rm-rfcore.*3.3 启动服务先设置以下变量(按实际环境替换):变量说明XLLM_PATHxllm 路径(xllm_path)MODEL_PATH模型路径(model_path)MASTER_NODE_ADDRip:9790,服务器 IP,端口任意START_PORT起始端口port,curl 地址为ip:portSTART_DEVICE从第几张卡开始跑NNODES卡数XLLM_PATHxllm_pathMODEL_PATHmodel_pathMASTER_NODE_ADDRip:9790START_PORTportSTART_DEVICE0LOG_DIRlogsNNODES1exportHCCL_IF_BASE_PORT43739for((i0;i$NNODES;i))doPORT$((START_PORTi))DEVICE$((START_DEVICEi))LOG_FILE$LOG_DIR/node_$i.lognohupnumactl-C$((DEVICE*40))-$((DEVICE*4039))$XLLM_PATH\--model$MODEL_PATH\--port$PORT\--devicesnpu:$DEVICE\--master_node_addr$MASTER_NODE_ADDR\--nnodes$NNODES\--node_rank$i\--max_memory_utilization0.85\--block_size128\--enable_prefix_cachefalse\--enable_chunked_prefillfalse\--communication_backendhccl\--enable_schedule_overlaptrue\--enable_graphfalse\--enable_shmtrue\--enable_prefill_spfalse\--backendvlm\--max_tokens_per_batch10240\--ep_size1\--dp_size1\$LOG_FILE21done--backendvlm:VLM 模型必需,区别于 LLM 部署。--max_tokens_per_batch:输入输出的总长度。出现SIGINT was installed with 1表示服务拉起成功。启动前务必在当前路径下mkdir logs。4. 功能性测试通过 curl 验证多模态(文本图片)回显:curl-XPOST http://ip:port/v1/chat/completions\-HContent-Type: application/json\-d{ model: oxygen-vlm-7b, messages: [ { role: user, content: [ {type: text, text: 你好}, {type: image_url, image_url: {url: data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVR42mP8z8BQDwAEhQGAhKmMIQAAAABJRU5ErkJggg}} ] } ] }image_url支持 base64 内联图片,也可替换为可访问的图片 URL。5. 性能测试使用 evalscope 进行多模态性能压测:evalscope perf\--model$MODEL_NAME\--url$API_URL\--apiopenai\--datasetrandom_vl\--rate25\--number25\--parallel25\--min-prompt-length9914\--max-prompt-length9914\--image-width512\--image-height512\--image-format RGB\--image-num1\--min-tokens7168\--max-tokens7168\--tokenizer-path$TOKENIZER_PATH\--seed42\--outputs-dir./out4/qwen3vl_32b\--extra-args{ignore_eos: true}参考:快速上手 · EvalScope 文档中心6. 精度测试evalscopeeval\--modelmodel_name\--api-url http://ip:port/v1\--api-key EMPTY\--eval-type openai_api\--datasetsmmmu\--limit_image_per_prompt参考:快速上手 · EvalScope 文档中心

终极指南：5分钟掌握Android虚拟定位开发与应用技巧

终极指南：5分钟掌握Android虚拟定位开发与应用技巧【免费下载链接】MockGPS Android application to fake GPS 项目地址: https://gitcode.com/gh_mirrors/mo/MockGPS 你是否曾经遇到过这样的尴尬场景？想要测试一个位置相关的应用功能&#xff0…

2026/7/2 11:34:37 阅读更多

TC78H653FTG与PIC18F46K80的直流有刷电机驱动系统设计

1. 直流有刷电机驱动系统概述在现代工业控制和消费电子领域，直流有刷电机因其结构简单、控制方便和成本低廉等优势，仍然是许多应用场景的首选驱动方案。这类电机通过电刷和换向器的机械接触实现电流换向，虽然存在磨损和维护问题，…

2026/7/2 11:34:37 阅读更多

从全量化到有限量化：算法管理下，平衡业务效率与组织长期价值

我们雇用的是完整的人，算法却常常只看见他们的手指。一家领先的保险公司引入了智能派单与话术导航系统，客服人员的平均处理时长下降22%，单日接单量提升17%。但一年后，管理层发现一个令人不安的趋势：复杂投诉的首次解决…

2026/7/2 11:34:37 阅读更多

STM32L152RE与AD74413R高精度数据采集系统设计

1. 项目背景与核心需求在工业测量和控制系统中，模拟信号与数字信号的相互转换是基础且关键的功能。AD74413R作为一款高精度、多通道的ADC/DAC芯片，配合STM32L152RE这款低功耗MCU，能够构建一个高效的数据采集与控制系统。这种组合特别适合需要…

2026/7/2 12:54:08 阅读更多

多工位扫码组网优化方案：XT6202-2 系列多收发器无线扫码枪数据分发技术研究

多工位并行扫码采集是制造业产线、大型仓储分拣中心的常规业务模式，传统一对一扫码组网方案不仅主机部署数量庞大，线路布设杂乱，后期运维工作量大，两套业务系统同步录入还需要额外部署数据转发软件，增加集成复杂度。多…

2026/7/2 12:52:47 阅读更多

显存不够用，vLLM 多卡并行配置与优化技巧

为什么单卡总是“爆显存”？ 跑大模型最让人头秃的瞬间，莫过于看着终端里 CUDA out of memory（或者在 AMD 平台上是 HIP out of memory）的报错发呆。尤其是面对 Llama 3.1 405B 这种巨无霸，单张显卡哪怕有 80GB 甚至 19…

2026/7/2 12:52:27 阅读更多

绝地求生鼠标宏终极指南：从零到精通的完整配置方案

绝地求生鼠标宏终极指南：从零到精通的完整配置方案【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生罗技鼠标宏项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 你是否曾经在绝地求生中因为后坐力…

2026/7/2 12:51:46 阅读更多

深度解析2026年苏州大模型GEO服务商：昆山正金软件科技有限公司

在2026年的企业营销版图中，生成式AI已不再是一个遥远的概念，而是切实重塑着每一个行业的流量分配与客户决策逻辑。传统的“搜素-浏览-点击”模式，正被“提问-生成-信任”的新范式所取代。对于身处苏州，特别是制造业与外贸企业密集…

2026/7/2 12:51:26 阅读更多

【Springboot毕设全套源码+文档】基于springboot小说阅读平台的设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

2026/7/2 12:51:26 阅读更多

Selenium元素定位全解析：从八大方法到实战策略

1. 项目概述：从“找东西”到“精准操控” 做自动化测试，尤其是Web UI自动化，最核心也最让人头疼的一步是什么？不是写复杂的业务逻辑，也不是处理异步加载，而是最基础的—— 让程序找到页面上那个你想操作的…

2026/7/2 0:00:12 阅读更多

移动端UI自动化测试框架Maestro终极指南：从入门到实战

1. 项目概述：为什么是Maestro？ 如果你正在寻找一个能让你快速上手、告别繁琐配置、并且对移动端UI自动化测试真正友好的框架，那么Maestro很可能就是你一直在等的那个答案。我接触过Appium、Espresso、XCUITest，也折腾过各种基于图…

2026/7/2 0:00:12 阅读更多

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

1. 项目概述：从“能用”到“精通”的必经之路如果你正在学习或从事网络安全测试，尤其是Web应用安全评估，那么BurpSuite的Intruder模块绝对是你绕不开的核心工具。而Intruder模块里，功能最强大、也最让人又爱又恨的，莫过…

2026/7/2 0:00:33 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/2 0:09:58 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/7/2 1:54:44 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/7/2 1:54:44 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/2 0:02:27 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/2 0:10:02 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…

2026/7/2 0:09:58 阅读更多

相关文章

终极指南：5分钟掌握Android虚拟定位开发与应用技巧

TC78H653FTG与PIC18F46K80的直流有刷电机驱动系统设计

从全量化到有限量化：算法管理下，平衡业务效率与组织长期价值

STM32L152RE与AD74413R高精度数据采集系统设计

多工位扫码组网优化方案：XT6202-2 系列多收发器无线扫码枪数据分发技术研究

显存不够用，vLLM 多卡并行配置与优化技巧

绝地求生鼠标宏终极指南：从零到精通的完整配置方案

深度解析2026年苏州大模型GEO服务商：昆山正金软件科技有限公司

【Springboot毕设全套源码+文档】基于springboot小说阅读平台的设计与实现(丰富项目+远程调试+讲解+定制)

Selenium元素定位全解析：从八大方法到实战策略

移动端UI自动化测试框架Maestro终极指南：从入门到实战

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

FAE放射组学分析工具：医学影像特征探索的完整解决方案

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南