yolov26改进 | Neck/颈部创新篇 | 独创HFPN利用分层特征融合块HFFB模块融合多层次特征改进yolov26（全网独家创新）

发布时间：2026/6/14 3:29:02

一、本文介绍本文给大家带来的最新改进是利用分层特征融合块HFFB创新yolov26的neck部分我称之为HFPN这个模块可以融合局部特征、全局特征、中间特征将三种特征融合在一起辅助yolov26进行检测经过我的设计分为三种可以针对大目标、小目标、标准目标的检测方式均不同大家可以根据自己的数据集进行不同的选择本文的内容为我独家创新。专栏链接YOLOv26有效涨点专栏包含Conv、注意力机制、主干/Backbone、损失函数、优化器、后处理等改进机制目录一、本文介绍二、原理介绍三、核心代码四、添加方法4.1 修改一4.2 修改二4.3 修改三4.4 修改四4.5 修改五五、正式训练5.1 yaml文件5.2 训练代码5.3 训练过程截图五、本文总结二、原理介绍官方论文地址官方论文点击此处即可跳转官方代码地址官方代码点击此处即可跳转HiFuse 采用了三分支分层多尺度特征融合网络结合 CNN 和 Transformer 的优势局部分支Local Feature Block通过 3×3 深度可分离卷积提取局部特征。全局分支Global Feature Block基于 Swin Transformer 采用窗口多头自注意力W-MSA提取全局信息。自适应层次特征融合块HFF Block用于融合不同层次的局部和全局特征包括空间注意力SA增强局部细节。通道注意力CA提升特定语义特征。残差反向 MLPIRMLP防止梯度消失提高信息流动。Shortcut 连接优化特征融合效果。三、核心代码核心代码的使用方式看章节四import torch import torch.nn as nn import torch.nn.functional as F class Conv(nn.Module): def __init__(self, inp_dim, out_dim, kernel_size3, stride1, bnFalse, reluTrue, biasTrue, group1): super(Conv, self).__init__() self.inp_dim inp_dim self.conv nn.Conv2d(inp_dim, out_dim, kernel_size, stride, padding(kernel_size-1)//2, biasbias) self.relu None self.bn None if relu: self.relu nn.ReLU(inplaceTrue) if bn: self.bn nn.BatchNorm2d(out_dim) def forward(self, x): assert x.size()[1] self.inp_dim, {} {}.format(x.size()[1], self.inp_dim) x self.conv(x) if self.bn is not None: x self.bn(x) if self.relu is not None: x self.relu(x) return x def drop_path_f(x, drop_prob: float 0., training: bool False): Drop paths (Stochastic Depth) per sample (when applied in main path of residual blocks). This is the same as the DropConnect impl I created for EfficientNet, etc networks, however, the original name is misleading as Drop Connect is a different form of dropout in a separate paper... See discussion: https://github.com/tensorflow/tpu/issues/494#issuecomment-532968956 ... Ive opted for changing the layer and argument names to drop path rather than mix DropConnect as a layer name and use survival rate as the argument. if drop_prob 0. or not training: return x keep_prob 1 - drop_prob shape (x.shape[0],) (1,) * (x.ndim - 1) # work with diff dim tensors, not just 2D ConvNets random_tensor keep_prob torch.rand(shape, dtypex.dtype, devicex.device) random_tensor.floor_() # binarize output x.div(keep_prob) * random_tensor return output class DropPath(nn.Module): Drop paths (Stochastic Depth) per sample (when applied in main path of residual blocks). def __init__(self, drop_probNone): super(DropPath, self).__init__() self.drop_prob drop_prob def forward(self, x): return drop_path_f(x, self.drop_prob, self.training) ##### Local Feature Block Component ##### class LayerNorm(nn.Module): r LayerNorm that supports two data formats: channels_last (default) or channels_first. The ordering of the dimensions in the inputs. channels_last corresponds to inputs with shape (batch_size, height, width, channels) while channels_first corresponds to inputs with shape (batch_size, channels, height, width). def __init__(self, normalized_shape, eps1e-6, data_formatchannels_last): super().__init__() self.weight nn.Parameter(torch.ones(normalized_shape), requires_gradTrue) self.bias nn.Parameter(torch.zeros(normalized_shape), requires_gradTrue) self.eps eps self.data_format data_format if self.data_format not in [channels_last, channels_first]: raise ValueError(fnot support data format {self.data_format}) self.normalized_shape (normalized_shape,) def forward(self, x: torch.Tensor) - torch.Tensor: if self.data_format channels_last: return F.layer_norm(x, self.normalized_shape, self.weight, self.bias, self.eps) elif self.data_format channels_first: # [batch_size, channels, height, width] mean x.mean(1, keepdimTrue) var (x - mean).pow(2).mean(1, keepdimTrue) x (x - mean) / torch.sqrt(var self.eps) x self.weight[:, None, None] * x self.bias[:, None, None] return x class Local_block(nn.Module): r Local Feature Block. There are two equivalent implementations: (1) DwConv - LayerNorm (channels_first) - 1x1 Conv - GELU - 1x1 Conv; all in (N, C, H, W) (2) DwConv - Permute to (N, H, W, C); LayerNorm (channels_last) - Linear - GELU - Linear; Permute back We use (2) as we find it slightly faster in PyTorch Args: dim (int): Number of input channels. drop_rate (float): Stochastic depth rate. Default: 0.0 def __init__(self, dim, drop_rate0.): super().__init__() self.dwconv nn.Conv2d(dim, dim, kernel_size3, padding1, groupsdim) # depthwise conv self.norm LayerNorm(dim, eps1e-6, data_formatchannels_last) self.pwconv nn.Linear(dim, dim) # pointwise/1x1 convs, implemented with linear layers self.act nn.GELU() self.drop_path DropPath(drop_rate) if drop_rate 0. else nn.Identity() def forward(self, x: torch.Tensor) - torch.Tensor: shortcut x x self.dwconv(x) x x.permute(0, 2, 3, 1) # [N, C, H, W] - [N, H, W, C] x self.norm(x) x self.pwconv(x) x self.act(x) x x.permute(0, 3, 1, 2) # [N, H, W, C] - [N, C, H, W] x shortcut self.drop_path(x) return x class IRMLP(nn.Module): def __init__(self, inp_dim, out_dim): super(IRMLP, self).__init__() self.conv1 Conv(inp_dim, inp_dim, 3, reluFalse, biasFalse, groupinp_dim) self.conv2 Conv(inp_dim, inp_dim * 4, 1, reluFalse, biasFalse) self.conv3 Conv(inp_dim * 4, out_dim, 1, reluFalse, biasFalse, bnTrue) self.gelu nn.GELU() self.bn1 nn.BatchNorm2d(inp_dim) def forward(self, x): residual x out self.conv1(x) out self.gelu(out) out residual out self.bn1(out) out self.conv2(out) out self.gelu(out) out self.conv3(out) return out # Hierachical Feature Fusion Block class HFFB(nn.Module): def __init__(self, ch_1, r_216, drop_rate0.): super(HFFB, self).__init__() ch_2 ch_1 ch_int ch_1 ch_out ch_2 self.maxpoolnn.AdaptiveMaxPool2d(1) self.avgpoolnn.AdaptiveAvgPool2d(1) self.senn.Sequential( nn.Conv2d(ch_2, ch_2 // r_2, 1,biasFalse), nn.ReLU(), nn.Conv2d(ch_2 // r_2, ch_2, 1,biasFalse) ) self.sigmoid nn.Sigmoid() self.spatial Conv(2, 1, 7, bnTrue, reluFalse, biasFalse) self.W_l Conv(ch_1, ch_int, 1, bnTrue, reluFalse) self.W_g Conv(ch_2, ch_int, 1, bnTrue, reluFalse) self.Avg nn.AvgPool2d(2, stride2) self.Updim Conv(ch_int//2, ch_int, 1, bnTrue, reluTrue) self.norm1 LayerNorm(ch_int * 3, eps1e-6, data_formatchannels_first) self.norm2 LayerNorm(ch_int * 2, eps1e-6, data_formatchannels_first) self.norm3 LayerNorm(ch_1 ch_2 ch_int, eps1e-6, data_formatchannels_first) self.W3 Conv(ch_int * 3, ch_int, 1, bnTrue, reluFalse) self.W Conv(ch_int * 2, ch_int, 1, bnTrue, reluFalse) self.gelu nn.GELU() self.residual IRMLP(ch_1 ch_2 ch_int, ch_out) self.drop_path DropPath(drop_rate) if drop_rate 0. else nn.Identity() def forward(self, x): l, g, f x W_local self.W_l(l) # local feature from Local Feature Block W_global self.W_g(g) # global feature from Global Feature Block if f is not None: W_f self.Updim(f) W_f self.Avg(W_f) shortcut W_f X_f torch.cat([W_f, W_local, W_global], 1) X_f self.norm1(X_f) X_f self.W3(X_f) X_f self.gelu(X_f) else: shortcut 0 X_f torch.cat([W_local, W_global], 1) X_f self.norm2(X_f) X_f self.W(X_f) X_f self.gelu(X_f) # spatial attention for ConvNeXt branch l_jump l max_result, _ torch.max(l, dim1, keepdimTrue) avg_result torch.mean(l, dim1, keepdimTrue) result torch.cat([max_result, avg_result], 1) l self.spatial(result) l self.sigmoid(l) * l_jump # channel attetion for transformer branch g_jump g max_resultself.maxpool(g) avg_resultself.avgpool(g) max_outself.se(max_result) avg_outself.se(avg_result) g self.sigmoid(max_outavg_out) * g_jump fuse torch.cat([g, l, X_f], 1) fuse self.norm3(fuse) fuse self.residual(fuse) fuse shortcut self.drop_path(fuse) return fuse四、添加方法下面的步骤如果你不会或者不想麻烦操作可以联系作者获得本专栏添加所有项目文件的源代码可直接训练.4.1 修改一第一还是建立文件我们找到如下ultralytics/nn文件夹下建立一个目录名字呢就是Addmodules文件夹4.2 修改二然后在Addmodules文件夹内建立一个新的py文件将本文章节三中的“核心代码复制粘贴进去。4.3 修改三第二步我们在该目录下创建一个新的py文件名字为__init__.py然后在其内部导入我们的文件如下图所示。4.4 修改四第三步我门中到如下文件ultralytics/nn/tasks.py进行导入和注册我们的模块(此处只需要添加一次即可如果你用我其它的改进机制这里的步骤只需要添加一次)4.5 修改五在ultralytics/nn/tasks.py文件内的parse_model方法函数内位置大概在1500行左右。# ------------------------------HFFB-------------------------------- elif m is HFFB: c2 ch[f[0]] args [c2, *args] # ------------------------------HFFB--------------------------------五、正式训练5.1 yaml文件训练信息YOLO26-Neck-HFFB summary: 291 layers, 3,068,352 parameters, 3,068,352 gradients, 13.0 GFLOPs# Ultralytics AGPL-3.0 License - https://ultralytics.com/license # Ultralytics YOLO26 object detection model with P3/8 - P5/32 outputs # Model docs: https://docs.ultralytics.com/models/yolo26 # Task docs: https://docs.ultralytics.com/tasks/detect # Parameters nc: 80 # number of classes end2end: True # whether to use end-to-end mode reg_max: 1 # DFL bins scales: # model compound scaling constants, i.e. modelyolo26n.yaml will call yolo26.yaml with scale n # [depth, width, max_channels] n: [0.50, 0.25, 1024] # summary: 260 layers, 2,572,280 parameters, 2,572,280 gradients, 6.1 GFLOPs s: [0.50, 0.50, 1024] # summary: 260 layers, 10,009,784 parameters, 10,009,784 gradients, 22.8 GFLOPs m: [0.50, 1.00, 512] # summary: 280 layers, 21,896,248 parameters, 21,896,248 gradients, 75.4 GFLOPs l: [1.00, 1.00, 512] # summary: 392 layers, 26,299,704 parameters, 26,299,704 gradients, 93.8 GFLOPs x: [1.00, 1.50, 512] # summary: 392 layers, 58,993,368 parameters, 58,993,368 gradients, 209.5 GFLOPs # YOLO26n backbone backbone: # [from, repeats, module, args] - [-1, 1, Conv, [64, 3, 2]] # 0-P1/2 - [-1, 1, Conv, [128, 3, 2]] # 1-P2/4 - [-1, 2, C3k2, [256, False, 0.25]] - [-1, 1, Conv, [256, 3, 2]] # 3-P3/8 - [-1, 2, C3k2, [512, False, 0.25]] - [-1, 1, Conv, [512, 3, 2]] # 5-P4/16 - [-1, 2, C3k2, [512, True]] - [-1, 1, Conv, [1024, 3, 2]] # 7-P5/32 - [-1, 2, C3k2, [1024, True]] - [-1, 1, SPPF, [1024, 5, 3, True]] # 9 - [-1, 2, C2PSA, [1024]] # 10 # YOLO26n head head: - [-1, 1, nn.Upsample, [None, 2, nearest]] - [[-1, 6], 1, Concat, [1]] # cat backbone P4 - [-1, 2, C3k2, [512, True]] # 13 - [-1, 1, nn.Upsample, [None, 2, nearest]] - [[-1, 4], 1, Concat, [1]] # cat backbone P3 - [-1, 2, C3k2, [256, True]] # 16 (P3/8-small) - [-1, 1, Conv, [256, 3, 2]] - [[-1, 13], 1, Concat, [1]] # cat head P4 - [-1, 2, C3k2, [512, True]] # 19 (P4/16-medium) - [-1, 1, Conv, [512, 3, 2]] - [[-1, 10], 1, Concat, [1]] # cat head P5 - [-1, 1, C3k2, [1024, True, 0.5, True]] # 22 (P5/32-large) # 下面分了三组每一组针对的目标不一样顺序是大、中、小根据自己的选择进行注释选择即可只能选择一个默认是小 # - [[22, 10, 19], 1, HFFB, []] # 23 (P5/32-large) # - [[16, 19, 23], 1, Detect, [nc]] # Detect(P3, P4, P5) # - [[19, 6, 16], 1, HFFB, []] # 23 (P4/16-medium) # - [[16, 23, 22], 1, Detect, [nc]] # Detect(P3, P4, P5) - [[16, 3, 1], 1, HFFB, []] # 23 (P3/8-small) - [[23, 19, 22], 1, Detect, [nc]] # Detect(P3, P4, P5)5.2 训练代码大家可以创建一个py文件将我给的代码复制粘贴进去配置好自己的文件路径即可运行。import warnings warnings.filterwarnings(ignore) from ultralytics import YOLO if __name__ __main__: model YOLO(模型配置文件地址,也就是5.1你保存到本地文件的地址) # 如何切换模型版本, 上面的ymal文件可以改为 yolo26s.yaml就是使用的26s, # 类似某个改进的yaml文件名称为yolo26-XXX.yaml那么如果想使用其它版本就把上面的名称改为yolo26l-XXX.yaml即可改的是上面YOLO中间的名字不是配置文件的 # model.load(yolo26n.pt) # 是否加载预训练权重,科研不建议大家加载否则很难提升精度 model.train( datar数据集文件地址, # 如果大家任务是其它的ultralytics/cfg/default.yaml找到这里修改task可以改成detect, segment, classify, pose cacheFalse, imgsz640, epochs20, single_clsFalse, # 是否是单类别检测 batch16, close_mosaic0, workers0, device0, optimizerMuSGD, # using SGD/MuSGD # resume, # 这里是填写last.pt地址 ampTrue, # 如果出现训练损失为Nan可以关闭amp projectruns/train, nameexp, )5.3 训练过程截图五、本文总结到此本文的正式分享内容就结束了在这里给大家推荐我的YOLOv26改进有效涨点专栏本专栏目前为新开的平均质量分98分后期我会根据各种最新的前沿顶会进行论文复现也会对一些老的改进机制进行补充如果大家觉得本文帮助到你了订阅本专栏关注后续更多的更新~专栏链接

yolov26改进 | Neck/颈部创新篇 | SDI结合BiFPN全新的特征融合网络（全网独家创新）

开始讲解之前推荐一下我的专栏，本专栏的内容支持(分类、检测、分割、追踪、关键点检测),专栏目前为限时折扣，欢迎大家订阅本专栏，本专栏每周更新3-5篇最新机制，更有包含我所有改进的文件和交流群提供给大家。一、本文介绍本文…

2026/6/14 3:29:02 阅读更多

别再只用HTTP了！实测对比：EMQX传输视频流 vs WebSocket/RTMP，到底谁更香？

实时视频传输协议深度评测：EMQX、WebSocket与RTMP的技术博弈在智能家居摄像头、工业巡检机器人等物联网场景中，视频流的实时传输质量直接决定了用户体验和系统可靠性。面对市面上主流的三种传输方案——基于EMQX的MQTT协议、WebSocket以及传统RTMP协议&a…

2026/6/14 3:29:02 阅读更多

游戏显卡真香！实测RTX 2070在CST 2023中的GPU加速效率与成本分析

游戏显卡在电磁仿真中的逆袭：RTX 2070实战CST 2023性能全解析当专业级显卡的价格让中小型研究团队望而却步时，游戏显卡能否成为电磁仿真计算的平替方案？这个问题困扰着许多预算有限的工程师和研究者。我们以NVIDIA RTX 2070这款已上市多年的游…

2026/6/14 3:28:41 阅读更多

机器学习落地前的四道业务安检门

1. 这不是技术选型题，而是业务诊断题“该不该上机器学习”，这句话在会议室里被反复抛出时，往往已经错了方向。我见过太多团队——市场部刚提完一个“智能推荐”需求，技术负责人立刻拉起3人小组开始搭TensorFlow环境；运…

2026/6/14 4:59:11 阅读更多

从Windows Defender到Android沙箱：ASLR技术在不同平台（Win11/Android 13）的实现差异与安全效果实测

从Windows Defender到Android沙箱：ASLR技术在不同平台的实现差异与安全效果实测在当今数字化时代，操作系统安全防护机制的有效性直接关系到数亿用户的数据安全。地址空间布局随机化(ASLR)作为内存保护的基础技术，其实现方式却因平台架构差异而…

2026/6/14 4:59:11 阅读更多

Mythos能力范式：大模型从解题到建构意义的跃迁

1. 项目概述：这不是一次普通更新，而是一次能力边界的重定义“TAI #200: Anthropic’s Mythos Capability Step Change and Gated Release”——这个标题里没有一个生僻词，但组合在一起却像一道行业快门，咔嚓一声定格了2024年中大模…

2026/6/14 4:57:30 阅读更多

人工智能多平台发布工具测评_CSDN_AI数字营销能不能打

人工智能多平台发布工具测评，CSDN AI数字营销能不能打？ 做内容的人，工具箱里总有几款用了很久、舍不得换的老伙计。我的老伙计是一款本地Markdown编辑器，配上各平台手动复制粘贴的笨办法。这个组合陪了我两年多，直到上…

2026/6/14 4:56:09 阅读更多

5分钟快速上手：uBlock Origin终极隐私保护指南

5分钟快速上手：uBlock Origin终极隐私保护指南【免费下载链接】uBlock uBlock Origin - An efficient blocker for Chromium and Firefox. Fast and lean. 项目地址: https://gitcode.com/GitHub_Trending/ub/uBlock 在当今数字时代，网页广告、跟…

2026/6/14 4:55:28 阅读更多

机器学习生产化实战：模型服务化与特征一致性架构

1. 项目概述：这不是一次“部署”，而是一场从实验室到产线的系统性迁移“From Notebook to Production: Running ML in the Real World (Part 4)”——这个标题里藏着一个被无数团队反复验证、又反复踩坑的真相：把Jupyter里跑通的模型&#xf…

2026/6/14 4:53:26 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/14 0:00:09 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/14 0:00:30 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/14 0:01:11 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

2026/6/14 0:00:09 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

2026/6/14 0:00:30 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

2026/6/14 0:01:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/13 10:27:28 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/13 10:01:44 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/13 10:00:44 阅读更多

相关文章

yolov26改进 | Neck/颈部创新篇 | SDI结合BiFPN全新的特征融合网络（全网独家创新）

别再只用HTTP了！实测对比：EMQX传输视频流 vs WebSocket/RTMP，到底谁更香？

游戏显卡真香！实测RTX 2070在CST 2023中的GPU加速效率与成本分析

机器学习落地前的四道业务安检门

从Windows Defender到Android沙箱：ASLR技术在不同平台（Win11/Android 13）的实现差异与安全效果实测

Mythos能力范式：大模型从解题到建构意义的跃迁

人工智能多平台发布工具测评_CSDN_AI数字营销能不能打

5分钟快速上手：uBlock Origin终极隐私保护指南

机器学习生产化实战：模型服务化与特征一致性架构

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因