1. 项目概述高光谱与多光谱图像融合的挑战与机遇在遥感、环境监测、精准农业乃至军事侦察等领域我们常常面临一个两难的选择要光谱细节还是要空间清晰度高光谱图像HSI就像一个拥有“超级色觉”的观察者它能捕捉数百个连续、狭窄的光谱波段对地物进行极其精细的“化学指纹”识别。一片看似普通的植被在高光谱图像中其健康状态、水分含量甚至物种信息都可能通过微妙的光谱曲线差异暴露无遗。然而这种超凡的光谱分辨能力是以牺牲空间分辨率为代价的。受限于传感器物理原理如推扫式成像中更窄的光谱波段需要更大的瞬时视场高光谱图像往往看起来比较“模糊”地物边界不清细节纹理丢失。与此同时多光谱图像MSI则扮演了“高清摄影师”的角色。它通常只捕捉几个到几十个较宽的光谱波段如红、绿、蓝、近红外但其空间分辨率要高得多能清晰地呈现地物的形状、纹理和空间结构。这就引出了图像融合领域的核心命题能否将高光谱图像丰富的光谱信息与多光谱图像清晰的空间细节结合起来生成一幅同时具备高光谱分辨率和高空间分辨率的“完美”图像传统的融合方法如基于成分替换、多分辨率分析或矩阵/张量分解的方法虽然取得了一定成效但往往依赖于人工设计的先验知识模型表达能力有限容易在融合过程中引入光谱失真或空间模糊。近年来深度学习的兴起为这一领域注入了新的活力。卷积神经网络CNN凭借其强大的局部特征提取能力在捕捉空间纹理方面表现出色成为许多融合模型的基础架构。然而CNN的固定卷积核尺寸限制了其建模长距离依赖关系的能力这对于理解高光谱图像中跨越数百个波段的、复杂的光谱相关性来说是一个明显的短板。另一方面起源于自然语言处理的Transformer模型及其核心的自注意力机制恰恰擅长捕捉序列元素间的长程依赖。当我们将高光谱图像的每个像素点在不同波段上的响应视为一个序列时自注意力机制就能有效地建模光谱维度上的全局关系。但纯粹的Transformer在处理图像这种具有强空间局部相关性的数据时又可能忽略关键的局部细节。因此一个理想的融合模型必须像一个技艺高超的“双料特工”既能像CNN一样敏锐地捕捉局部空间纹理多尺度特征又能像Transformer一样透彻地理解全局光谱关联长程依赖。这正是我们设计SSMSFuse模型的出发点我们不再试图用一个网络“通吃”所有任务而是为空间和光谱这两种特性迥异的信息分别量身定制了专用的处理分支并通过一个精巧的引导融合模块让它们在多个尺度上深度对话、协同工作。2. SSMSFuse模型架构深度解析SSMSFuse模型的核心思想是“分而治之协同耦合”。整个模型摒弃了单一网络处理所有信息的思路转而采用双分支并行架构分别针对空间信息和光谱信息的特性进行优化设计最后通过一个跨尺度的引导融合模块实现信息的深度融合。2.1 双分支并行处理空间与光谱的“专家会诊”想象一下你要修复一幅古画一位专家擅长分析颜料的化学成分光谱另一位专家擅长还原笔触的精细纹理空间。最有效的方法不是让一位专家兼顾两项工作而是让他们各自发挥专长然后密切协作。SSMSFuse正是基于这一理念。空间嵌入网络Spa-Net空间细节的“显微镜”Spa-Net是一个基于CNN构建的U型网络结构其核心任务是像显微镜一样从输入图像中提取多层次的空间特征。它的输入是经过上采样对齐后的低分辨率高光谱图像LR-HSI和高分辨率多光谱图像HR-MSI的拼接。这里有一个关键细节为什么是拼接Concat而不是简单的相加因为拼接操作保留了来自两个源图像的原始通道信息避免了早期融合可能造成的信息混淆为后续网络区分和利用不同来源的特征留下了空间。Spa-Net通过一系列步长为2的卷积层进行下采样逐步提取从浅层到深层的多尺度特征。浅层特征如M3, M2, M1, M0富含丰富的纹理和细节信息好比画作的笔触和颜料颗粒而深层特征如F0, F1, ...则更多地编码了高级的语义和轮廓信息好比画作的整体结构和物体边界。Spa-Net的创新之处在于它不仅在编码路径中提取这些特征还通过跳跃连接和后续的融合模块将这些不同尺度的空间特征与光谱分支的特征进行交互确保最终重建的高分辨率图像在每一个尺度上都融合了恰当的空间信息。光谱嵌入网络Spe-Net光谱关联的“全局分析师”与Spa-Net的局部感知不同Spe-Net的任务是理解高光谱图像中跨越数百个波段的长程光谱依赖关系。它仅以低分辨率高光谱图像LR-HSI为输入目的是避免高分辨率多光谱图像中可能存在的粗糙光谱信息干扰专注于提炼纯净、精细的光谱特征。Spe-Net的核心是级联的卷积谱自注意力块CSAB。这是对传统Transformer中自注意力模块的一个重要改进。原始的谱自注意力块SAB使用全连接前馈网络FFN这种结构在处理图像这种具有强空间局部相关性的数据时效率不高且容易过拟合。CSAB用卷积层和激活函数替代了FFN和层归一化。这样做的深层逻辑是先利用卷积层对输入特征进行初步的、具有空间局部性的特征提取和降维然后再送入谱多头自注意力S-MSA模块去建模光谱维度的全局关系。这种“先局部后全局”的处理流程更符合图像数据的特性既降低了计算复杂度又通过跳跃连接保留了原始信息增强了模块的学习能力。在S-MSA中我们将高光谱图像的空间维度H×W展平将每个光谱通道共C个视为一个“词元”Token。通过计算查询Q、键K、值V矩阵并沿光谱维度分成多个头Head模型可以并行地关注不同子空间的光谱相关性。特别地我们引入了位置编码通过卷积层实现使模型在建模光谱长程依赖的同时不丢失光谱通道之间的相对位置信息这对于保持光谱曲线的连续性至关重要。2.2 空间-光谱引导融合块SSGFB跨尺度信息耦合的“指挥家”双分支分别提取了多尺度空间特征[M_i]和多尺度光谱特征[S_i]。如何将它们有效地融合而不是简单拼接或相加是决定融合质量的关键。SSGFB就是这个过程中的“指挥家”。传统方法通常从同一个特征图计算空间和光谱注意力这忽略了源图像HSI和MSI的特性差异。SSGFB的创新在于“对症下药”它从Spa-Net提取的空间特征[FM_i]由深层特征上采样后与同尺度浅层特征拼接得到计算空间注意力权重SpaA同时从Spe-Net提取的光谱特征S_i计算光谱注意力权重SpeA。空间注意力计算对拼接特征[FM_i]分别进行全局平均池化和最大池化将结果拼接后通过一个7×7的大卷积核和Sigmoid函数生成空间注意力图。7×7的大卷积核能覆盖更大的感受野更好地整合上下文信息从而更准确地标识出图像中需要增强空间细节的区域如边缘、纹理复杂的区域。光谱注意力计算对光谱特征S_i同样进行全局平均池化和最大池化然后分别通过多层感知机MLP后相加再经Sigmoid激活得到光谱注意力图。这个权重图标识出哪些光谱波段包含更关键或更独特的信息需要在融合中被重点保留。最后SSGFB将空间特征[FM_i]和光谱特征S_i拼接先通过1×1卷积进行通道融合和降维然后依次与计算出的光谱注意力权重和空间注意力权重进行逐元素相乘。这个过程是引导性的光谱注意力首先强调重要的光谱通道空间注意力随后在空间维度上进一步聚焦。这种级联的注意力机制实现了跨模态、跨尺度的精细化特征选择与融合。2.3 损失函数设计平衡的艺术模型的优化目标由两部分损失函数共同指导均方误差损失MSE Loss这是最常用的像素级重建损失迫使融合结果在空间上与真实的高分辨率高光谱图像HR-HSI尽可能接近主要保证空间细节的保真度。光谱角制图器损失SAM Loss这是高光谱图像处理中的特有损失。它计算的是真实光谱向量与预测光谱向量之间的夹角余弦值。夹角越小说明光谱形状越相似即使两者的绝对亮度值有差异。这个损失函数专门用于约束融合结果的光谱保真度防止出现光谱扭曲。最终的损失函数是两者的加权和L MSE(I, I_hat) α * SAM(I, I_hat)。超参数α用于平衡空间保真度和光谱保真度。经过实验我们将α设置为0.001。这意味着在训练初期模型主要致力于降低像素误差MSE快速学习空间结构随着训练进行较小的α使得SAM损失能够温和地“校正”光谱形状使其更接近真实情况。这是一个非常实用的经验过大的α可能导致模型过度关注光谱形状而牺牲空间清晰度产生模糊的结果。3. 实验设计与结果分析在四大公开数据集上的全面验证为了全面评估SSMSFuse的性能我们在四个广泛使用的公开数据集上进行了实验CAVE室内物体、NTIRE2022自然场景、Chikusei机载农田/城市和Houston机载城市区域。这四个数据集在场景复杂度、图像尺寸和波段数量上各有特点构成了一个 rigorous 的测试基准。3.1 对比方法与评价指标我们选择了10种先进的HSI-MSI融合算法进行对比涵盖了传统方法和深度学习方法传统方法CNMF耦合非负矩阵分解、CSU耦合光谱解混、NSTF非局部稀疏张量分解、LTTR低张量火车秩表示、UTV基于Tucker分解的单向全变分。深度学习方法UMAG无监督多注意力引导网络、SSAU空间-光谱注意力U-Net、MCT多层级交叉Transformer、UMTF无监督多尺度Transformer融合网络、SMGU基于互引导的空间-光谱展开网络。我们采用了8个客观评价指标进行量化比较相关系数CC、均方根误差RMSE、峰值信噪比PSNR、光谱角制图器SAM、绝对误差均值MoAE、结构相似性指数SSIM、相对全局综合误差ERGAS和通用图像质量指数UIQI。其中CC、PSNR、SSIM、UIQI越高越好RMSE、SAM、MoAE、ERGAS越低越好。3.2 实验结果深度剖析在CAVE数据集上的表现CAVE数据集包含32幅室内物体的高光谱图像。如表1所示此处为文字描述原论文有详细表格SSMSFuse在8个指标中的5个CC、ERGAS、PSNR、RMSE、SAM取得了最优值在SSIM上取得次优值。特别地PSNR相比次优方法提升了1.14%RMSE提升了1.28%而SAM衡量光谱失真相比次优方法降低了0.0515。这表明SSMSFuse在提升空间清晰度的同时更好地保持了光谱完整性。从图8的视觉对比中可以看到LTTR、UTV等方法存在明显的色调和亮度改变MCT的结果则较为模糊。而SSMSFuse的融合结果在细节和色彩上与真实图像最为接近。图9的误差图颜色越深误差越小直观显示SSMSFuse的误差分布最均匀且整体亮度最低。图10的光谱曲线对比进一步证实SSMSFuse重建的光谱曲线与真实曲线几乎重合而UTV等方法出现了严重的光谱失真。在NTIRE2022数据集上的表现该数据集包含大量自然场景的RGB-HSI对。由于RGB图像是真实采集而非模拟退化一些依赖已知光谱响应函数的传统方法无法适用。在此数据集上我们主要与SSAU和SMGU这两个先进的深度学习方法对比。表2显示SSMSFuse在8个指标中的5个取得最优。图11的误差图显示SSMSFuse在书本、墙壁、台灯等细节区域的误差明显小于SMGU。图12的光谱曲线显示SSMSFuse在整个波段范围内都与真实曲线拟合得最好而SMGU在第10个波段后出现了异常波动。在Chikusei和Houston数据集上的表现这两个都是大型机载遥感数据集更具实际应用意义。在Chikusei数据集上表3SSMSFuse取得了7个指标的最优和1个指标的次优RMSE、SAM、ERGAS相比次优方法分别提升了4.98%、3.51%和6.52%。图13的伪彩色图像显示UTV、LTTR存在严重色偏CSU、CNMF等则出现模糊。SSMSFuse的结果则清晰、色彩自然。图14的误差图再次印证了其低误差特性。图15的光谱曲线对比显示SSMSFuse的光谱保真度最高。在Houston数据集上表4SSMSFuse取得了7个最优和1个次优的压倒性优势。为了更贴近实际应用我们计算了融合结果的归一化植被指数NDVI图图19。NDVI是遥感中用于监测植被健康状况的关键指数。结果显示SSMSFuse生成的NDVI图能最准确地反映植被覆盖区域及其生长状况绿色区域深度合理而其他许多方法要么无法正确识别植被要么无法反映生长梯度。这强有力地证明了SSMSFuse融合结果在后续高级视觉任务如地物分类、变化检测中的实用价值。3.3 消融实验每个模块都不可或缺为了验证Spa-Net、Spe-Net和SSGFB每个模块的有效性我们进行了系统的消融实验表5w/o-MS移除SSGFB中的多尺度连接即不使用浅层空间特征M_i。结果所有指标全面下降说明多尺度空间特征的引入对于重建细节至关重要。w/o-Spe移除Spe-Net分支即不使用光谱特征S_i仅用空间特征计算通道注意力。SAM指标显著上升表明光谱保真度严重下降印证了专门的光谱处理分支的必要性。w/o-SSGFB用简单的拼接操作替代SSGFB。各项指标尤其是SAM出现明显恶化。这说明简单的特征合并会导致信息干扰而SSGFB的引导式注意力融合机制能有效实现信息互补。CSAB→CBAM将Spe-Net中的CSAB模块替换为经典的卷积块注意力模块CBAM。性能出现下降这证明了我们设计的CSAB卷积谱自注意力结构比通用的CBAM更适合建模高光谱图像特有的长程光谱依赖。此外我们还测试了损失函数中平衡参数α的影响表6。当α0.1时SAM损失下降明显但其他指标并非最优说明模型过度关注光谱而损失了空间细节。当α0.001时模型在空间和光谱保真度之间达到了最佳平衡。3.4 模型复杂度与效率分析在模型参数量、计算量GFLOPs、GPU内存占用和平均测试时间上SSMSFuse都展现出了良好的效率表7。其测试时间仅比轻量级的SSAU慢0.064秒但融合质量有显著提升。作为无监督方法的UMAG和UMTF由于需要在测试时对图像进行迭代优化其测试时间要长得多。这表明SSMSFuse在取得最优性能的同时保持了较高的推理效率具备实际部署的潜力。4. 实操要点与经验总结基于对SSMSFuse模型的研究与实验分析以下是一些关键的实操心得和注意事项供研究者和工程师参考1. 数据预处理是成功的基石严格遵循Wald协议在模拟生成LR-HSI和HR-MSI进行训练时必须严格按照Wald的退化协议。这包括使用真实的光谱响应函数SRF进行光谱退化以及使用合理的内核如高斯模糊进行空间下采样。不准确的退化模型会导致模型学习到错误的映射关系在实际应用中失效。波段对齐与裁剪不同传感器的波段范围和数量可能不同。在融合前务必检查并确保HSI和MSI在光谱维度上是对齐的即MSI的每个波段对应HSI的某个波段范围。对于空间尺寸通常需要将LR-HSI上采样到与HR-MSI相同的尺寸。在裁剪图像块进行训练时要确保裁剪位置对齐避免引入额外的空间错位误差。2. 网络设计与训练技巧学习率与优化器我们使用Adam优化器初始学习率设为1e-4这是一个在深度学习图像任务中常见的稳健起点。可以采用学习率衰减策略如在验证集性能平台期时乘以0.1。对于这种双分支复杂网络Adam通常比SGD收敛得更快、更稳定。批次大小Batch Size受限于高光谱图像的大尺寸和高通道数即使使用11GB显存的RTX 2080 Ti批次大小也只能设置为32。更大的批次大小可能稳定训练但需要根据显存容量权衡。可以使用梯度累积来模拟更大的批次大小。损失函数权重的调参经验SAM损失的权重α是一个关键超参数。我们的经验是从一个很小的值如1e-4开始观察验证集上的PSNR和SAM指标。如果PSNR很高但SAM很差可以缓慢增加α如果SAM改善但图像变得模糊PSNR下降则说明α过大。0.001是一个在多个数据集上表现良好的经验值但它可能因数据集和网络结构而异。3. 光谱保真度的特殊考量SAM损失的必要性对于高光谱融合任务仅使用MSE或L1损失是不够的。MSE是逐像素的容易导致光谱曲线整体平移或缩放亮度变化而被惩罚但可能忽略光谱形状的扭曲。SAM专注于光谱向量的角度对光照变化不敏感但对光谱形状变化敏感。两者结合能更全面地约束输出。评估时多看光谱曲线和指数图不要只看PSNR和SSIM。一定要可视化关键像素点的光谱曲线以及计算如NDVI、NDWI等光谱指数图。这些是检验光谱是否真的被“保真”融合的试金石。一个PSNR很高但NDVI图失真的融合结果对于农业遥感应用是毫无价值的。4. 对后续任务的友好性用高级任务验证如本文所做使用K-means等简单分类器对融合结果进行分类并计算Calinski-Harabaz指数等内部评估指标是一个很好的习惯。这能直观证明融合图像是否提升了特征的区分度而不仅仅是像素级的相似。在实际项目中融合往往是预处理步骤最终目的是服务于分类、检测或反演。一个在像素指标上表现中等但在高级任务上表现优异的融合算法可能更具实用价值。5. 局限性与未来改进方向SSMSFuse在现有数据集上表现出色但其泛化能力仍有提升空间。模型性能可能依赖于训练数据与测试数据在场景和退化过程上的相似性。未来的工作可以探索更强大的光谱建模可以尝试更高效或更轻量化的光谱注意力机制。无监督/自监督学习收集成对的HR-HSI和LR-HSI/HR-MSI数据成本高昂。探索无需成对数据的训练方法是一个重要方向。动态多尺度融合当前的SSGFB在固定尺度上进行融合。是否可以设计一个自适应权重的融合模块根据输入图像内容动态调整不同尺度特征的贡献模型轻量化虽然当前模型效率尚可但对于卫星或无人机上的实时处理进一步的模型压缩和加速研究仍有必要。SSMSFuse模型通过其清晰的双分支设计、针对性的特征提取模块和精细化的跨尺度引导融合为高光谱与多光谱图像融合提供了一种高效且强大的解决方案。它启示我们在处理多模态、多特性数据时尊重数据本身的特性为其设计专用的处理通路并通过精心设计的交互机制实现协同往往比追求单一网络的“万能”更能取得突破。
SSMSFuse:基于CNN与Transformer双分支的高光谱与多光谱图像融合模型
发布时间:2026/5/26 12:30:26
1. 项目概述高光谱与多光谱图像融合的挑战与机遇在遥感、环境监测、精准农业乃至军事侦察等领域我们常常面临一个两难的选择要光谱细节还是要空间清晰度高光谱图像HSI就像一个拥有“超级色觉”的观察者它能捕捉数百个连续、狭窄的光谱波段对地物进行极其精细的“化学指纹”识别。一片看似普通的植被在高光谱图像中其健康状态、水分含量甚至物种信息都可能通过微妙的光谱曲线差异暴露无遗。然而这种超凡的光谱分辨能力是以牺牲空间分辨率为代价的。受限于传感器物理原理如推扫式成像中更窄的光谱波段需要更大的瞬时视场高光谱图像往往看起来比较“模糊”地物边界不清细节纹理丢失。与此同时多光谱图像MSI则扮演了“高清摄影师”的角色。它通常只捕捉几个到几十个较宽的光谱波段如红、绿、蓝、近红外但其空间分辨率要高得多能清晰地呈现地物的形状、纹理和空间结构。这就引出了图像融合领域的核心命题能否将高光谱图像丰富的光谱信息与多光谱图像清晰的空间细节结合起来生成一幅同时具备高光谱分辨率和高空间分辨率的“完美”图像传统的融合方法如基于成分替换、多分辨率分析或矩阵/张量分解的方法虽然取得了一定成效但往往依赖于人工设计的先验知识模型表达能力有限容易在融合过程中引入光谱失真或空间模糊。近年来深度学习的兴起为这一领域注入了新的活力。卷积神经网络CNN凭借其强大的局部特征提取能力在捕捉空间纹理方面表现出色成为许多融合模型的基础架构。然而CNN的固定卷积核尺寸限制了其建模长距离依赖关系的能力这对于理解高光谱图像中跨越数百个波段的、复杂的光谱相关性来说是一个明显的短板。另一方面起源于自然语言处理的Transformer模型及其核心的自注意力机制恰恰擅长捕捉序列元素间的长程依赖。当我们将高光谱图像的每个像素点在不同波段上的响应视为一个序列时自注意力机制就能有效地建模光谱维度上的全局关系。但纯粹的Transformer在处理图像这种具有强空间局部相关性的数据时又可能忽略关键的局部细节。因此一个理想的融合模型必须像一个技艺高超的“双料特工”既能像CNN一样敏锐地捕捉局部空间纹理多尺度特征又能像Transformer一样透彻地理解全局光谱关联长程依赖。这正是我们设计SSMSFuse模型的出发点我们不再试图用一个网络“通吃”所有任务而是为空间和光谱这两种特性迥异的信息分别量身定制了专用的处理分支并通过一个精巧的引导融合模块让它们在多个尺度上深度对话、协同工作。2. SSMSFuse模型架构深度解析SSMSFuse模型的核心思想是“分而治之协同耦合”。整个模型摒弃了单一网络处理所有信息的思路转而采用双分支并行架构分别针对空间信息和光谱信息的特性进行优化设计最后通过一个跨尺度的引导融合模块实现信息的深度融合。2.1 双分支并行处理空间与光谱的“专家会诊”想象一下你要修复一幅古画一位专家擅长分析颜料的化学成分光谱另一位专家擅长还原笔触的精细纹理空间。最有效的方法不是让一位专家兼顾两项工作而是让他们各自发挥专长然后密切协作。SSMSFuse正是基于这一理念。空间嵌入网络Spa-Net空间细节的“显微镜”Spa-Net是一个基于CNN构建的U型网络结构其核心任务是像显微镜一样从输入图像中提取多层次的空间特征。它的输入是经过上采样对齐后的低分辨率高光谱图像LR-HSI和高分辨率多光谱图像HR-MSI的拼接。这里有一个关键细节为什么是拼接Concat而不是简单的相加因为拼接操作保留了来自两个源图像的原始通道信息避免了早期融合可能造成的信息混淆为后续网络区分和利用不同来源的特征留下了空间。Spa-Net通过一系列步长为2的卷积层进行下采样逐步提取从浅层到深层的多尺度特征。浅层特征如M3, M2, M1, M0富含丰富的纹理和细节信息好比画作的笔触和颜料颗粒而深层特征如F0, F1, ...则更多地编码了高级的语义和轮廓信息好比画作的整体结构和物体边界。Spa-Net的创新之处在于它不仅在编码路径中提取这些特征还通过跳跃连接和后续的融合模块将这些不同尺度的空间特征与光谱分支的特征进行交互确保最终重建的高分辨率图像在每一个尺度上都融合了恰当的空间信息。光谱嵌入网络Spe-Net光谱关联的“全局分析师”与Spa-Net的局部感知不同Spe-Net的任务是理解高光谱图像中跨越数百个波段的长程光谱依赖关系。它仅以低分辨率高光谱图像LR-HSI为输入目的是避免高分辨率多光谱图像中可能存在的粗糙光谱信息干扰专注于提炼纯净、精细的光谱特征。Spe-Net的核心是级联的卷积谱自注意力块CSAB。这是对传统Transformer中自注意力模块的一个重要改进。原始的谱自注意力块SAB使用全连接前馈网络FFN这种结构在处理图像这种具有强空间局部相关性的数据时效率不高且容易过拟合。CSAB用卷积层和激活函数替代了FFN和层归一化。这样做的深层逻辑是先利用卷积层对输入特征进行初步的、具有空间局部性的特征提取和降维然后再送入谱多头自注意力S-MSA模块去建模光谱维度的全局关系。这种“先局部后全局”的处理流程更符合图像数据的特性既降低了计算复杂度又通过跳跃连接保留了原始信息增强了模块的学习能力。在S-MSA中我们将高光谱图像的空间维度H×W展平将每个光谱通道共C个视为一个“词元”Token。通过计算查询Q、键K、值V矩阵并沿光谱维度分成多个头Head模型可以并行地关注不同子空间的光谱相关性。特别地我们引入了位置编码通过卷积层实现使模型在建模光谱长程依赖的同时不丢失光谱通道之间的相对位置信息这对于保持光谱曲线的连续性至关重要。2.2 空间-光谱引导融合块SSGFB跨尺度信息耦合的“指挥家”双分支分别提取了多尺度空间特征[M_i]和多尺度光谱特征[S_i]。如何将它们有效地融合而不是简单拼接或相加是决定融合质量的关键。SSGFB就是这个过程中的“指挥家”。传统方法通常从同一个特征图计算空间和光谱注意力这忽略了源图像HSI和MSI的特性差异。SSGFB的创新在于“对症下药”它从Spa-Net提取的空间特征[FM_i]由深层特征上采样后与同尺度浅层特征拼接得到计算空间注意力权重SpaA同时从Spe-Net提取的光谱特征S_i计算光谱注意力权重SpeA。空间注意力计算对拼接特征[FM_i]分别进行全局平均池化和最大池化将结果拼接后通过一个7×7的大卷积核和Sigmoid函数生成空间注意力图。7×7的大卷积核能覆盖更大的感受野更好地整合上下文信息从而更准确地标识出图像中需要增强空间细节的区域如边缘、纹理复杂的区域。光谱注意力计算对光谱特征S_i同样进行全局平均池化和最大池化然后分别通过多层感知机MLP后相加再经Sigmoid激活得到光谱注意力图。这个权重图标识出哪些光谱波段包含更关键或更独特的信息需要在融合中被重点保留。最后SSGFB将空间特征[FM_i]和光谱特征S_i拼接先通过1×1卷积进行通道融合和降维然后依次与计算出的光谱注意力权重和空间注意力权重进行逐元素相乘。这个过程是引导性的光谱注意力首先强调重要的光谱通道空间注意力随后在空间维度上进一步聚焦。这种级联的注意力机制实现了跨模态、跨尺度的精细化特征选择与融合。2.3 损失函数设计平衡的艺术模型的优化目标由两部分损失函数共同指导均方误差损失MSE Loss这是最常用的像素级重建损失迫使融合结果在空间上与真实的高分辨率高光谱图像HR-HSI尽可能接近主要保证空间细节的保真度。光谱角制图器损失SAM Loss这是高光谱图像处理中的特有损失。它计算的是真实光谱向量与预测光谱向量之间的夹角余弦值。夹角越小说明光谱形状越相似即使两者的绝对亮度值有差异。这个损失函数专门用于约束融合结果的光谱保真度防止出现光谱扭曲。最终的损失函数是两者的加权和L MSE(I, I_hat) α * SAM(I, I_hat)。超参数α用于平衡空间保真度和光谱保真度。经过实验我们将α设置为0.001。这意味着在训练初期模型主要致力于降低像素误差MSE快速学习空间结构随着训练进行较小的α使得SAM损失能够温和地“校正”光谱形状使其更接近真实情况。这是一个非常实用的经验过大的α可能导致模型过度关注光谱形状而牺牲空间清晰度产生模糊的结果。3. 实验设计与结果分析在四大公开数据集上的全面验证为了全面评估SSMSFuse的性能我们在四个广泛使用的公开数据集上进行了实验CAVE室内物体、NTIRE2022自然场景、Chikusei机载农田/城市和Houston机载城市区域。这四个数据集在场景复杂度、图像尺寸和波段数量上各有特点构成了一个 rigorous 的测试基准。3.1 对比方法与评价指标我们选择了10种先进的HSI-MSI融合算法进行对比涵盖了传统方法和深度学习方法传统方法CNMF耦合非负矩阵分解、CSU耦合光谱解混、NSTF非局部稀疏张量分解、LTTR低张量火车秩表示、UTV基于Tucker分解的单向全变分。深度学习方法UMAG无监督多注意力引导网络、SSAU空间-光谱注意力U-Net、MCT多层级交叉Transformer、UMTF无监督多尺度Transformer融合网络、SMGU基于互引导的空间-光谱展开网络。我们采用了8个客观评价指标进行量化比较相关系数CC、均方根误差RMSE、峰值信噪比PSNR、光谱角制图器SAM、绝对误差均值MoAE、结构相似性指数SSIM、相对全局综合误差ERGAS和通用图像质量指数UIQI。其中CC、PSNR、SSIM、UIQI越高越好RMSE、SAM、MoAE、ERGAS越低越好。3.2 实验结果深度剖析在CAVE数据集上的表现CAVE数据集包含32幅室内物体的高光谱图像。如表1所示此处为文字描述原论文有详细表格SSMSFuse在8个指标中的5个CC、ERGAS、PSNR、RMSE、SAM取得了最优值在SSIM上取得次优值。特别地PSNR相比次优方法提升了1.14%RMSE提升了1.28%而SAM衡量光谱失真相比次优方法降低了0.0515。这表明SSMSFuse在提升空间清晰度的同时更好地保持了光谱完整性。从图8的视觉对比中可以看到LTTR、UTV等方法存在明显的色调和亮度改变MCT的结果则较为模糊。而SSMSFuse的融合结果在细节和色彩上与真实图像最为接近。图9的误差图颜色越深误差越小直观显示SSMSFuse的误差分布最均匀且整体亮度最低。图10的光谱曲线对比进一步证实SSMSFuse重建的光谱曲线与真实曲线几乎重合而UTV等方法出现了严重的光谱失真。在NTIRE2022数据集上的表现该数据集包含大量自然场景的RGB-HSI对。由于RGB图像是真实采集而非模拟退化一些依赖已知光谱响应函数的传统方法无法适用。在此数据集上我们主要与SSAU和SMGU这两个先进的深度学习方法对比。表2显示SSMSFuse在8个指标中的5个取得最优。图11的误差图显示SSMSFuse在书本、墙壁、台灯等细节区域的误差明显小于SMGU。图12的光谱曲线显示SSMSFuse在整个波段范围内都与真实曲线拟合得最好而SMGU在第10个波段后出现了异常波动。在Chikusei和Houston数据集上的表现这两个都是大型机载遥感数据集更具实际应用意义。在Chikusei数据集上表3SSMSFuse取得了7个指标的最优和1个指标的次优RMSE、SAM、ERGAS相比次优方法分别提升了4.98%、3.51%和6.52%。图13的伪彩色图像显示UTV、LTTR存在严重色偏CSU、CNMF等则出现模糊。SSMSFuse的结果则清晰、色彩自然。图14的误差图再次印证了其低误差特性。图15的光谱曲线对比显示SSMSFuse的光谱保真度最高。在Houston数据集上表4SSMSFuse取得了7个最优和1个次优的压倒性优势。为了更贴近实际应用我们计算了融合结果的归一化植被指数NDVI图图19。NDVI是遥感中用于监测植被健康状况的关键指数。结果显示SSMSFuse生成的NDVI图能最准确地反映植被覆盖区域及其生长状况绿色区域深度合理而其他许多方法要么无法正确识别植被要么无法反映生长梯度。这强有力地证明了SSMSFuse融合结果在后续高级视觉任务如地物分类、变化检测中的实用价值。3.3 消融实验每个模块都不可或缺为了验证Spa-Net、Spe-Net和SSGFB每个模块的有效性我们进行了系统的消融实验表5w/o-MS移除SSGFB中的多尺度连接即不使用浅层空间特征M_i。结果所有指标全面下降说明多尺度空间特征的引入对于重建细节至关重要。w/o-Spe移除Spe-Net分支即不使用光谱特征S_i仅用空间特征计算通道注意力。SAM指标显著上升表明光谱保真度严重下降印证了专门的光谱处理分支的必要性。w/o-SSGFB用简单的拼接操作替代SSGFB。各项指标尤其是SAM出现明显恶化。这说明简单的特征合并会导致信息干扰而SSGFB的引导式注意力融合机制能有效实现信息互补。CSAB→CBAM将Spe-Net中的CSAB模块替换为经典的卷积块注意力模块CBAM。性能出现下降这证明了我们设计的CSAB卷积谱自注意力结构比通用的CBAM更适合建模高光谱图像特有的长程光谱依赖。此外我们还测试了损失函数中平衡参数α的影响表6。当α0.1时SAM损失下降明显但其他指标并非最优说明模型过度关注光谱而损失了空间细节。当α0.001时模型在空间和光谱保真度之间达到了最佳平衡。3.4 模型复杂度与效率分析在模型参数量、计算量GFLOPs、GPU内存占用和平均测试时间上SSMSFuse都展现出了良好的效率表7。其测试时间仅比轻量级的SSAU慢0.064秒但融合质量有显著提升。作为无监督方法的UMAG和UMTF由于需要在测试时对图像进行迭代优化其测试时间要长得多。这表明SSMSFuse在取得最优性能的同时保持了较高的推理效率具备实际部署的潜力。4. 实操要点与经验总结基于对SSMSFuse模型的研究与实验分析以下是一些关键的实操心得和注意事项供研究者和工程师参考1. 数据预处理是成功的基石严格遵循Wald协议在模拟生成LR-HSI和HR-MSI进行训练时必须严格按照Wald的退化协议。这包括使用真实的光谱响应函数SRF进行光谱退化以及使用合理的内核如高斯模糊进行空间下采样。不准确的退化模型会导致模型学习到错误的映射关系在实际应用中失效。波段对齐与裁剪不同传感器的波段范围和数量可能不同。在融合前务必检查并确保HSI和MSI在光谱维度上是对齐的即MSI的每个波段对应HSI的某个波段范围。对于空间尺寸通常需要将LR-HSI上采样到与HR-MSI相同的尺寸。在裁剪图像块进行训练时要确保裁剪位置对齐避免引入额外的空间错位误差。2. 网络设计与训练技巧学习率与优化器我们使用Adam优化器初始学习率设为1e-4这是一个在深度学习图像任务中常见的稳健起点。可以采用学习率衰减策略如在验证集性能平台期时乘以0.1。对于这种双分支复杂网络Adam通常比SGD收敛得更快、更稳定。批次大小Batch Size受限于高光谱图像的大尺寸和高通道数即使使用11GB显存的RTX 2080 Ti批次大小也只能设置为32。更大的批次大小可能稳定训练但需要根据显存容量权衡。可以使用梯度累积来模拟更大的批次大小。损失函数权重的调参经验SAM损失的权重α是一个关键超参数。我们的经验是从一个很小的值如1e-4开始观察验证集上的PSNR和SAM指标。如果PSNR很高但SAM很差可以缓慢增加α如果SAM改善但图像变得模糊PSNR下降则说明α过大。0.001是一个在多个数据集上表现良好的经验值但它可能因数据集和网络结构而异。3. 光谱保真度的特殊考量SAM损失的必要性对于高光谱融合任务仅使用MSE或L1损失是不够的。MSE是逐像素的容易导致光谱曲线整体平移或缩放亮度变化而被惩罚但可能忽略光谱形状的扭曲。SAM专注于光谱向量的角度对光照变化不敏感但对光谱形状变化敏感。两者结合能更全面地约束输出。评估时多看光谱曲线和指数图不要只看PSNR和SSIM。一定要可视化关键像素点的光谱曲线以及计算如NDVI、NDWI等光谱指数图。这些是检验光谱是否真的被“保真”融合的试金石。一个PSNR很高但NDVI图失真的融合结果对于农业遥感应用是毫无价值的。4. 对后续任务的友好性用高级任务验证如本文所做使用K-means等简单分类器对融合结果进行分类并计算Calinski-Harabaz指数等内部评估指标是一个很好的习惯。这能直观证明融合图像是否提升了特征的区分度而不仅仅是像素级的相似。在实际项目中融合往往是预处理步骤最终目的是服务于分类、检测或反演。一个在像素指标上表现中等但在高级任务上表现优异的融合算法可能更具实用价值。5. 局限性与未来改进方向SSMSFuse在现有数据集上表现出色但其泛化能力仍有提升空间。模型性能可能依赖于训练数据与测试数据在场景和退化过程上的相似性。未来的工作可以探索更强大的光谱建模可以尝试更高效或更轻量化的光谱注意力机制。无监督/自监督学习收集成对的HR-HSI和LR-HSI/HR-MSI数据成本高昂。探索无需成对数据的训练方法是一个重要方向。动态多尺度融合当前的SSGFB在固定尺度上进行融合。是否可以设计一个自适应权重的融合模块根据输入图像内容动态调整不同尺度特征的贡献模型轻量化虽然当前模型效率尚可但对于卫星或无人机上的实时处理进一步的模型压缩和加速研究仍有必要。SSMSFuse模型通过其清晰的双分支设计、针对性的特征提取模块和精细化的跨尺度引导融合为高光谱与多光谱图像融合提供了一种高效且强大的解决方案。它启示我们在处理多模态、多特性数据时尊重数据本身的特性为其设计专用的处理通路并通过精心设计的交互机制实现协同往往比追求单一网络的“万能”更能取得突破。