Jetson 多模型并行推理：GPU/DLA/CPU 协同

发布时间：2026/6/27 10:20:39

Jetson 多模型并行推理GPU/DLA/CPU 协同1. 多模型并行架构Jetson Orin NX 计算资源 ├── GPU1024 CUDA 32 Tensor Core ├── DLA 0专用 AI 加速器独立于 GPU ├── DLA 1第二路 AI 加速器 └── CPU8 核 ARM后处理、调度并行策略 ├── GPU DLA0 DLA13 路模型并行 ├── 多 CUDA StreamGPU 内多模型流水线 └── 异步推理采集/推理/后处理重叠2. GPU DLA 双路并行#!/usr/bin/env python3gpu_dla_parallel.pyimporttensorrtastrtimportthreadingimporttimeclassParallelInference:def__init__(self,model_gpu_path,model_dla_path):self.gpu_engineself._load_engine(model_gpu_path)self.dla_engineself._load_engine(model_dla_path)def_load_engine(self,path):loggertrt.Logger(trt.Logger.WARNING)runtimetrt.Runtime(logger)withopen(path,rb)asf:returnruntime.deserialize_cuda_engine(f.read())defgpu_infer(self,input_data):contextself.gpu_engine.create_execution_context()returnself._run(context,input_data)defdla_infer(self,input_data):contextself.dla_engine.create_execution_context()returnself._run(context,input_data)def_run(self,context,input_data):# 推理执行passdefparallel_infer(self,frame_a,frame_b):result[None,None]t1threading.Thread(targetlambda:result.__setitem__(0,self.gpu_infer(frame_a)))t2threading.Thread(targetlambda:result.__setitem__(1,self.dla_infer(frame_b)))starttime.time()t1.start();t2.start()t1.join();t2.join()print(f并行推理:{(time.time()-start)*1000:.1f}ms)returnresult3. 构建 DLA 引擎defbuild_dla_engine(onnx_path,engine_path,dla_core0):loggertrt.Logger(trt.Logger.WARNING)buildertrt.Builder(logger)networkbuilder.create_network(1int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))parsertrt.OnnxParser(network,logger)withopen(onnx_path,rb)asf:parser.parse(f.read())configbuilder.create_builder_config()config.set_memory_pool_limit(trt.MemoryPoolType.WORKSPACE,130)config.default_device_typetrt.DeviceType.DLA config.DLA_coredla_core config.set_flag(trt.BuilderFlag.GPU_FALLBACK)config.set_flag(trt.BuilderFlag.FP16)enginebuilder.build_serialized_network(network,config)withopen(engine_path,wb)asf:f.write(engine)print(fDLA{dla_core}引擎已保存:{engine_path})4. 异步推理管线#!/usr/bin/env python3async_pipeline.pyimportthreading,queue,time,cv2classAsyncPipeline:def__init__(self,model,max_queue_size3):self.modelmodel self.input_queuequeue.Queue(maxsizemax_queue_size)self.output_queuequeue.Queue(maxsizemax_queue_size)self.runningFalsedefstart(self,camera_id0):self.runningTrueself._threads[threading.Thread(targetself._capture_loop,args(camera_id,),daemonTrue),threading.Thread(targetself._infer_loop,daemonTrue),threading.Thread(targetself._display_loop,daemonTrue),]fortinself._threads:t.start()def_capture_loop(self,camera_id):pipeline(fnvarguscamerasrc sensor-id{camera_id}! fvideo/x-raw(memory:NVMM), width1280, height720, fformatNV12, framerate30/1 ! fnvvidconv ! video/x-raw, formatBGRx ! videoconvert ! fvideo/x-raw, formatBGR ! appsink)capcv2.VideoCapture(pipeline,cv2.CAP_GSTREAMER)whileself.running:ret,framecap.read()ifret:ifself.input_queue.full():self.input_queue.get()self.input_queue.put(frame)cap.release()def_infer_loop(self):whileself.running:try:frameself.input_queue.get(timeout0.1)resultself.model.detect(frame)ifself.output_queue.full():self.output_queue.get()self.output_queue.put((frame,result))exceptqueue.Empty:continuedef_display_loop(self):fps_count,fps_start0,time.time()whileself.running:try:frame,detsself.output_queue.get(timeout0.1)canvasself.model.draw_detections(frame,dets)fps_count1iftime.time()-fps_start1.0:cv2.putText(canvas,fFPS:{fps_count},(10,30),cv2.FONT_HERSHEY_SIMPLEX,1,(0,255,0),2)fps_count0fps_starttime.time()cv2.imshow(Pipeline,canvas)ifcv2.waitKey(1)0xFFord(q):self.runningFalsebreakexceptqueue.Empty:continuecv2.destroyAllWindows()5. 性能基准多模型并行性能Orin NX 16GB ┌──────────────────────┬──────────┬──────────┬──────────┐ │ 配置 │ 模型 A │ 模型 B │ 总吞吐 │ ├──────────────────────┼──────────┼──────────┼──────────┤ │ GPU only │ 50 FPS │ - │ 50 FPS │ │ GPU DLA0 │ 50 FPS │ 40 FPS │ 90 FPS │ │ GPU DLA0 DLA1 │ 50 FPS │ 40 FPS │ 130 FPS │ │ 3x CUDA Stream │ 25 FPS │ 25 FPS │ 75 FPS │ └──────────────────────┴──────────┴──────────┴──────────┘总结核心要点DLA 独立DLA 与 GPU 完全独立可并行运行不同模型GPU_FALLBACKDLA 不支持的层自动回退到 GPU异步管线采集/推理/后处理三阶段重叠最大化吞吐队列管理满队列丢弃旧帧保证实时性

【IDEA版本选择终极指南】：20年JetBrains工具链专家揭秘社区版vs旗舰版的17项核心差异与3大避坑法则

更多请点击： https://codechina.net 第一章：IDEA版本选择的底层逻辑与决策框架 IntelliJ IDEA 的版本选择并非仅由“最新即最好”驱动，而是受制于项目技术栈、团队协作规范、插件生态兼容性及长期维护成本等多重因素的系统性权衡。理解其底层…

2026/6/27 10:16:26 阅读更多

CBCX外汇的首页路径会不会更省事？

CBCX外汇的首页路径会不会更省事？从另一个层面看，围绕“CBCX外汇在线支持会不会更省事”这个问题观察CBCX外汇，能更快看出平台基础服务是否扎实。这种偏重提示的表达方式，不靠夸张结论取胜，而是把正面感受落到可感知的…

2026/6/27 10:16:26 阅读更多

ACDSee 2026下载安装教程(附安装包)ACDSee看图工具保姆级安装教程

文章目录前言ACDSee 下载ACDSee 2026安装教程ACDSee 2026安装失败怎么办？常见报错及解决方法汇总前言 ACDSee 2026是一款功能强大的专业看图工具，支持多种图像格式的快速浏览和管理。这款软件界面直观，操作简单，能够高效处理各种…

2026/6/27 10:15:24 阅读更多

API 请求完整链路详解：Endpoint、Method、Headers、鉴权、响应解析与常见报错排查

很多新手刚开始调用 API 时，会直接从 Postman、curl 或代码里点一次请求，然后盯着返回的 JSON 看结果。但在真实开发中，仅仅知道“接口返回了什么”是不够的。你还需要知道： Endpoint 应该怎么填；GET、POST、PUT、P…

2026/6/27 11:56:50 阅读更多

企业级IDEA JDK标准化配置方案（含Maven/Gradle双环境同步、CI流水线预检checklist）

更多请点击： https://kaifayun.com 第一章：企业级IDEA JDK标准化配置方案（含Maven/Gradle双环境同步、CI流水线预检checklist） 统一JDK版本与IDEA项目SDK策略在企业多团队协作场景中，强制使用JDK 17 LTS作为默认开发…

2026/6/27 11:56:29 阅读更多

Awesome Web Archiving：一份 Web 归档领域的资源清单

文章目录Awesome Web Archiving：一份 Web 归档领域的资源清单Awesome Web Archiving：一份 Web 归档领域的资源清单整理了一份 Web 归档领域的资源合集，目前在 GitHub 上收获了 2,591 个 Star： 这个项目叫 Awesome Web Archiving…

2026/6/27 11:56:09 阅读更多

【小白向】桌面智能自动化助理搭建，一键部署 OpenClaw v2.7.9 配置完成即刻使用（最新安装包）

OpenClaw（小龙虾）Windows 一键部署实操手册｜十分钟搭建专属本地数字员工适配平台：Windows 10/11（64 位）｜零基础友好｜全可视化界面｜无编程门槛当下热度较高的开源 AI 智…

2026/6/27 11:55:48 阅读更多

SWC：用 Rust 重写的前端编译器，速度碾压 Babel

文章目录SWC：用 Rust 重写的前端编译器，速度碾压 BabelSWC：用 Rust 重写的前端编译器，速度碾压 Babel 前端开发中，TypeScript 和 JavaScript 的编译是绕不开的环节。大多数项目用 Babel 处理代码转译，但 Ba…

2026/6/27 11:52:55 阅读更多

JDK 17+模块化配置在IDEA中失效？Java 9+ JPMS与IDEA SDK绑定机制深度解密（仅限内部技术组流通版）

更多请点击： https://codechina.net 第一章：JDK 17模块化配置在IDEA中失效？Java 9 JPMS与IDEA SDK绑定机制深度解密（仅限内部技术组流通版） IntelliJ IDEA 在 JDK 17 环境下对 JPMS（Java Platform Module …

2026/6/27 11:52:35 阅读更多

千问AI眼镜：阿里AI战略急先锋，能否在激烈竞争中突围？

千问眼镜：销量第一背后的挑战不久前，不少第三方统计机构给千问背书，甚至给出全国销量第一的统计结果。这个第一的含金量有多高？暂且先打个问号。但这些榜单至少说明，千问眼镜延续了阿里AI战略整体偏激进的风格&#xf…

2026/6/27 0:01:13 阅读更多

Tomcat中X-Frame-Options配置实战：防御点击劫持的四种方法与最佳实践

1. 项目概述：为什么X-Frame-Options是Web安全的“防盗门”？最近在排查一个老项目的安全审计报告时，又被提到了“点击劫持”风险，矛头直指缺失的X-Frame-Options响应头。这已经不是第一次了，很多开发团队，尤…

2026/6/27 0:01:34 阅读更多

10分钟AI语音克隆与实时变声：Retrieval-based-Voice-Conversion-WebUI完整指南

10分钟AI语音克隆与实时变声：Retrieval-based-Voice-Conversion-WebUI完整指南【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrie…

2026/6/27 0:04:02 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/27 1:16:50 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/27 1:16:49 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/27 1:16:48 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/26 12:42:30 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…