YOLOv5s 从 PyTorch 到 RK3588 NPU 部署全流程（附性能对比）

发布时间：2026/6/30 4:17:04

以yolov5s-5.0为例完整记录.pt → ONNX → RKNN的转换、代码修改及 RK3588 平台推理测试。一、环境与硬件准备组件说明训练好的模型yolov5s.ptv5.0转换设备x86_64 架构 LinuxUbuntu 20.04 Python 3.8 演示部署设备RK3588 开发板二、PT → ONNX 转换1. 修改模型forward函数适配 NPU 导出在 YOLOv5 的models/yolo.py中找到Detect类的forward方法修改如下修改前原始def forward(self, x): Processes input through YOLOv5 layers, altering shape for detection: x(bs, 3, ny, nx, 85). z [] # inference output for i in range(self.nl): x[i] self.m[i](x[i]) # conv bs, _, ny, nx x[i].shape # x(bs,255,20,20) to x(bs,3,20,20,85) x[i] x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous() if not self.training: # inference if self.dynamic or self.grid[i].shape[2:4] ! x[i].shape[2:4]: self.grid[i], self.anchor_grid[i] self._make_grid(nx, ny, i) if isinstance(self, Segment): # (boxes masks) xy, wh, conf, mask x[i].split((2, 2, self.nc 1, self.no - self.nc - 5), 4) xy (xy.sigmoid() * 2 self.grid[i]) * self.stride[i] # xy wh (wh.sigmoid() * 2) ** 2 * self.anchor_grid[i] # wh y torch.cat((xy, wh, conf.sigmoid(), mask), 4) else: # Detect (boxes only) xy, wh, conf x[i].sigmoid().split((2, 2, self.nc 1), 4) xy (xy * 2 self.grid[i]) * self.stride[i] # xy wh (wh * 2) ** 2 * self.anchor_grid[i] # wh y torch.cat((xy, wh, conf), 4) z.append(y.view(bs, self.na * nx * ny, self.no)) return x if self.training else (torch.cat(z, 1),) if self.export else (torch.cat(z, 1), x)修改后增加环境变量控制def forward(self, x): z [] # inference output for i in range(self.nl): if os.getenv(RKNN_model_hack, 0) ! 0: x[i] torch.sigmoid(self.m[i](x[i])) # conv return x作用通过环境变量RKNM_model_hack控制导出时仅保留 sigmoid 激活后的卷积输出简化 ONNX 结构。2. 修改export.py脚本在export.py开头增加import os os.environ[RKNM_model_hack] npu_2修改模型输出 shape 获取方式修改前shape tuple((y[0] if isinstance(y, tuple) else y).shape) # model output shape修改后shape tuple(y[0].shape) # model output shape3. 执行 ONNX 导出python export.py --weights yolov5s.pt --include onnx得到yolov5s.onnx文件。三、ONNX → RKNN 转换在 x86 Linux 上完成⚠️ 注意此步骤不能在 RK3588 上执行需在 x86_64 主机或虚拟机/WSL中进行。1. 创建 Conda 环境Python 3.8conda create -n RKN python3.8 -y conda activate RKN2. 安装 rknn_toolkit2git clone https://github.com/rockchip-linux/rknn-toolkit2.git cd rknn-toolkit2 pip install rknn_toolkit2-1.4.0_22dcfef4-cp38-linux_x86_64.whl测试安装from rknn.api import RKNN3. 修改转换示例脚本进入示例目录cd rknn-toolkit2-1.6.0/rknn-toolkit2/examples/onnx/yolov5将你的yolov5s.onnx放入该目录修改test.py中的模型路径和图片路径执行转换python3 test.py成功后会生成.rknn模型文件。四、在 RK3588 平台上部署并推理1. 下载 rknpu2 工具git clone https://github.com/rockchip-linux/rknpu2 cd rknpu2-master/examples/rknn_yolov5_demo2. 修改头文件设定类别数进⼊到 /rknpu2-master/examples/rknn_yolov5_demo⽂件夹下修改头⽂件postprocess.h#define OBJ_CLASS_NUM 2 // 修改为你的数据集类别数3. 修改标签文件替换model/coco_80_labels_list.txt内容为你的类别名称。4. 放置模型和测试图片将.rknn文件放到model/RK3588/目录下将测试图片如test.jpg放到model/目录下5. 编译并运行./build-linux_RK3588.sh # 生成 install 目录 cd install/rknn_yolov5_demo_linux ./rknn_yolov5_demo ./model/RK3588/best.rknn ./model/test.jpg五、推理性能对比RK3588 实测测试条件同一张测试图片循环推理 10 次取平均计时范围预处理推理后处理NPU 单核占用约30% ~ 44%模型模型大小平均延时yolov5s-cpuCPU 推理28.5 MB398 ~ 456 msyolov5s-npuNPU 推理8.2 MB27 ~ 29 msyolov8sCPU 推理12.2 MB224 ~ 240 ms NPU 加速效果显著延时从数百毫秒降至30ms 以内模型体积也大幅缩小。

Linux 系统编程 02：文件高级操作

前言：承接上一篇基础文件 IO 的核心系统调用，本篇深入讲解 Linux 文件操作的四大高级特性：文件重定向、文件锁、文件空洞与写入原子性。这些特性是 Shell 重定向、日志系统、多进程文件互斥、大文件预分配等场景的底层支撑，也是嵌…

2026/6/30 4:17:04 阅读更多

内卷VS躺平VS转型：2026年程序员的第三条路

内卷VS躺平VS转型：2026年程序员的第三条路 ——从政策风向到实战破局引言：2026年，程序员站在三岔路口“AI项目做得不好会发愁，自己会因为能力不足被裁；项目做好了更发愁，因为老板会把工作交给AI&#xff0…

2026/6/30 4:16:43 阅读更多

MSPM0安全启动与NONMAIN_TYPEE寄存器配置实战指南

1. MSPM0安全启动与NONMAIN_TYPEE寄存器深度解析在嵌入式开发领域，尤其是涉及物联网终端、工业控制器或消费电子产品的量产阶段，如何确保设备固件不被恶意篡改、调试接口不被非法利用，是每个工程师都必须面对的“安全必修课”。德州仪器的MSP…

2026/6/30 4:16:43 阅读更多

Tomcat Container容器之Engine：StandardEngine

理解思路第一：抓住StandardEngine整体类依赖结构来理解编辑第二：结合server.xml中Engine配置来理解见下文具体阐述。第三：结合EnEngine接口设计这看Engine.java接口前，先要看下相关属性支持设置的属性列表属性描述…

2026/6/30 5:32:20 阅读更多

RAG 基本原理：检索增强生成完整指南

什么是 RAG？RAG（Retrieval-Augmented Generation，检索增强生成） 是一种将信息检索与大语言模型（LLM）生成结合的系统设计模式。其核心思想是：在回答用户问题之前，先从外部知识库中…

2026/6/30 5:32:00 阅读更多

openGauss5.0.3在centos7中镜像打包，在wsl中加载启动

1、创建openGauss5.0.3目录在目录下创建5.0.3目录和vi buildDockerImage.sh buildDockerImage.sh： #!/bin/bash # Build docker image # Copyright (c) Huawei Technologies Co., Ltd. 2020-2028. All rights reserved. # #openGauss is licensed under Mulan PSL …

2026/6/30 5:32:00 阅读更多

BOM 尾料停产后怎么处理？PMC 五步清单与初评前提

一、什么叫 BOM 尾料，和「杂呆滞」有什么不同 BOM 尾料通常指：某一机型或订单对应的物料清单里，生产结束后仍留在仓里的剩余料。常见来源： 订单砍量、客户取消，已采购未耗完机型 EOL，专用料（特…

2026/6/30 5:32:00 阅读更多

【2026】CAD Mechanical 2027机械版下载安装超详细教程(附安装包)

文章目录CAD Mechanical 2027 安装包下载CAD Mechanical 2027安装教程CAD Mechanical 2027入门基础教程：从界面认识开始机械设计和机械工程圈子里，装软件这件事看着简单，但真上手总会在某个环节卡住。CAD Mechanical 2027安装教程网上一搜不少…

2026/6/30 5:31:20 阅读更多

存储系统层次结构：从寄存器到硬盘全解析

一、存储系统层次结构（必考分层）速度从快→慢；容量从小到大；成本从高→低寄存器 → Cache（高速缓存） → 主存（内存 RAM） → 辅存（硬盘 / SSD/U 盘）寄存器&am…

2026/6/30 5:31:20 阅读更多

Google限制Meta使用Gemini模型凸显AI授权竞争白热化

近日，据多家科技媒体报道，Google已对Meta施加限制，禁止其在部分产品或服务中直接使用Gemini AI模型。这一消息一经传出，便在人工智能领域掀起波澜，凸显出当前大厂间AI模型授权竞争的激烈程度。新闻导语：根…

2026/6/30 0:01:09 阅读更多

XGBoost超参数实战：从理论到调优策略

1. XGBoost超参数基础认知第一次接触XGBoost时，我被它那密密麻麻的参数列表吓到了。这感觉就像面对一架波音747的驾驶舱——每个按钮都可能有神奇的效果，但按错了就可能坠机。经过多年实战，我发现其实掌握十几个核心参数就能解决90%的问题。…

2026/6/30 0:02:51 阅读更多

ChatGPT函数调用从入门到高并发落地：3步完成生产级集成，附可直接运行的TypeScript+Python双模版

更多请点击： https://kaifayun.com 第一章：ChatGPT函数调用的核心原理与演进脉络函数调用（Function Calling）是大语言模型从纯文本生成迈向结构化交互的关键跃迁。其本质并非模型原生具备“执行代码”的能力，而是通…

2026/6/30 0:04:11 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/30 0:04:06 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/6/30 1:24:32 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/6/30 1:24:32 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/29 13:06:32 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/29 13:32:14 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/29 13:32:14 阅读更多

相关文章

Linux 系统编程 02：文件高级操作

内卷VS躺平VS转型：2026年程序员的第三条路

MSPM0安全启动与NONMAIN_TYPEE寄存器配置实战指南

Tomcat Container容器之Engine：StandardEngine

RAG 基本原理：检索增强生成完整指南

openGauss5.0.3在centos7中镜像打包，在wsl中加载启动

BOM 尾料停产后怎么处理？PMC 五步清单与初评前提

【2026】CAD Mechanical 2027机械版下载安装超详细教程(附安装包)

存储系统层次结构：从寄存器到硬盘全解析

Google限制Meta使用Gemini模型 凸显AI授权竞争白热化

XGBoost超参数实战：从理论到调优策略

ChatGPT函数调用从入门到高并发落地：3步完成生产级集成，附可直接运行的TypeScript+Python双模版

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

Google限制Meta使用Gemini模型凸显AI授权竞争白热化