用PyTorch复现Spectral-Spatial Attention Network：一个遥感图像分类的保姆级实战教程

发布时间：2026/6/14 22:34:53

用PyTorch复现Spectral-Spatial Attention Network一个遥感图像分类的保姆级实战教程高光谱遥感图像分类一直是计算机视觉领域极具挑战性的任务。传统的机器学习方法在处理这类数据时往往捉襟见肘而深度学习的出现为这一领域带来了革命性的突破。本文将带你从零开始用PyTorch实现一个结合了光谱和空间注意力机制的先进网络模型完整覆盖数据预处理、模型构建、训练优化到结果可视化的全流程。1. 环境准备与数据加载在开始构建模型前我们需要配置合适的开发环境并准备高光谱数据集。推荐使用Python 3.8和PyTorch 1.10版本这些组合能提供良好的兼容性和性能表现。首先安装必要的依赖库pip install torch torchvision numpy scikit-learn matplotlib scipy对于高光谱数据我们将使用经典的Pavia University数据集。这个数据集包含610×340像素的图像具有103个光谱波段涵盖9种不同的地表覆盖类型。以下是加载和预处理数据的完整代码import numpy as np import scipy.io as sio from sklearn.decomposition import PCA from sklearn.model_selection import train_test_split from torch.utils.data import Dataset, DataLoader class HSI_Dataset(Dataset): def __init__(self, data, labels, patch_size27, pca_components3): self.data data self.labels labels self.patch_size patch_size self.pca PCA(n_componentspca_components) # 数据标准化 self.data (self.data - np.mean(self.data)) / np.std(self.data) # PCA降维 self.data_pca self.pca.fit_transform(self.data.reshape(-1, data.shape[-1])) self.data_pca self.data_pca.reshape(data.shape[0], data.shape[1], pca_components) def __len__(self): return np.count_nonzero(self.labels) def __getitem__(self, idx): # 获取带标签的像素坐标 coords np.argwhere(self.labels 0) row, col coords[idx] label self.labels[row, col] - 1 # 类别从0开始 # 提取空间patch half self.patch_size // 2 patch np.pad(self.data_pca, ((half,half),(half,half),(0,0)), constant) spatial_patch patch[row:rowself.patch_size, col:colself.patch_size, :] # 提取光谱向量 spectral_vector self.data[row, col, :] return (torch.FloatTensor(spectral_vector), torch.FloatTensor(spatial_patch.transpose(2,0,1)), torch.LongTensor([label]))提示在实际应用中建议将数据集划分为训练集、验证集和测试集比例通常为6:2:2。对于类别不平衡问题可以采用过采样或加权损失函数等策略。2. 模型架构设计Spectral-Spatial Attention Network的核心在于同时捕捉光谱和空间两个维度的特征并通过注意力机制强化关键信息。我们将模型分解为三个主要组件光谱注意力分支、空间注意力分支和特征融合模块。2.1 光谱注意力分支光谱分支采用双向GRU结构处理连续光谱信息配合注意力机制突出重要波段import torch.nn as nn class SpectralAttention(nn.Module): def __init__(self, input_dim, hidden_dim, num_layers1): super().__init__() self.gru_fw nn.GRU(input_dim, hidden_dim, num_layers, batch_firstTrue) self.gru_bw nn.GRU(input_dim, hidden_dim, num_layers, batch_firstTrue) # 注意力机制 self.attention nn.Sequential( nn.Linear(2*hidden_dim, hidden_dim), nn.Tanh(), nn.Linear(hidden_dim, 1), nn.Softmax(dim1) ) def forward(self, x): # 双向GRU处理 out_fw, _ self.gru_fw(x.unsqueeze(1)) # (batch, seq_len, hidden) out_bw, _ self.gru_bw(torch.flip(x.unsqueeze(1), [1])) out_bw torch.flip(out_bw, [1]) # 拼接双向输出 combined torch.cat([out_fw, out_bw], dim-1).squeeze(1) # (batch, 2*hidden) # 计算注意力权重 attn_weights self.attention(combined) attended (attn_weights * combined).sum(dim1) return attended, attn_weights.squeeze()2.2 空间注意力分支空间分支采用CNN架构处理局部邻域信息通过空间注意力强化关键区域class SpatialAttention(nn.Module): def __init__(self, in_channels): super().__init__() self.conv1 nn.Conv2d(in_channels, 32, kernel_size3, padding1) self.conv2 nn.Conv2d(32, 64, kernel_size3, padding1) self.pool nn.MaxPool2d(2, 2) # 空间注意力 self.attn_conv nn.Conv2d(64, 1, kernel_size1) self.sigmoid nn.Sigmoid() def forward(self, x): # 基础特征提取 x F.relu(self.conv1(x)) x self.pool(x) x F.relu(self.conv2(x)) # 空间注意力 attn self.sigmoid(self.attn_conv(x)) attended x * attn # 全局平均池化 out F.adaptive_avg_pool2d(attended, (1,1)).view(x.size(0), -1) return out, attn.squeeze()2.3 特征融合与分类将两个分支的特征进行融合后通过全连接层进行分类class SSANet(nn.Module): def __init__(self, spectral_dim, spatial_channels, num_classes): super().__init__() self.spectral_branch SpectralAttention(spectral_dim, 64) self.spatial_branch SpatialAttention(spatial_channels) # 融合分类 self.fc nn.Sequential( nn.Linear(128 64, 256), nn.ReLU(), nn.Dropout(0.5), nn.Linear(256, num_classes) ) def forward(self, spectral, spatial): # 光谱分支 spec_feat, spec_attn self.spectral_branch(spectral) # 空间分支 spat_feat, spat_attn self.spatial_branch(spatial) # 特征融合 combined torch.cat([spec_feat, spat_feat], dim1) logits self.fc(combined) return logits, spec_attn, spat_attn3. 模型训练与优化构建好模型架构后我们需要设计合适的训练流程和优化策略。高光谱数据通常样本有限因此需要特别注意防止过拟合。3.1 损失函数与评估指标对于多分类问题交叉熵损失是标准选择。同时监控准确率和Kappa系数def train_model(model, dataloaders, criterion, optimizer, num_epochs100): best_acc 0.0 for epoch in range(num_epochs): for phase in [train, val]: if phase train: model.train() else: model.eval() running_loss 0.0 running_corrects 0 for spectral, spatial, labels in dataloaders[phase]: spectral spectral.to(device) spatial spatial.to(device) labels labels.to(device).squeeze() optimizer.zero_grad() with torch.set_grad_enabled(phase train): outputs, _, _ model(spectral, spatial) loss criterion(outputs, labels) if phase train: loss.backward() optimizer.step() _, preds torch.max(outputs, 1) running_loss loss.item() * spectral.size(0) running_corrects torch.sum(preds labels.data) epoch_loss running_loss / len(dataloaders[phase].dataset) epoch_acc running_corrects.double() / len(dataloaders[phase].dataset) print(f{phase} Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f}) # 保存最佳模型 if phase val and epoch_acc best_acc: best_acc epoch_acc torch.save(model.state_dict(), best_model.pth) return model3.2 学习率调度与正则化采用余弦退火学习率调度和标签平滑技术提升模型泛化能力from torch.optim.lr_scheduler import CosineAnnealingLR from torch.nn.functional import cross_entropy class LabelSmoothingCrossEntropy(nn.Module): def __init__(self, epsilon0.1): super().__init__() self.epsilon epsilon def forward(self, logits, targets): num_classes logits.size(-1) log_probs F.log_softmax(logits, dim-1) targets torch.zeros_like(log_probs).scatter_(1, targets.unsqueeze(1), 1) targets (1 - self.epsilon) * targets self.epsilon / num_classes loss (-targets * log_probs).sum(dim1).mean() return loss # 初始化 model SSANet(spectral_dim103, spatial_channels3, num_classes9).to(device) criterion LabelSmoothingCrossEntropy() optimizer torch.optim.Adam(model.parameters(), lr0.001, weight_decay1e-4) scheduler CosineAnnealingLR(optimizer, T_max10, eta_min1e-5)4. 结果分析与可视化训练完成后我们需要评估模型性能并理解其决策过程。注意力机制的一个优势就是提供了可解释性。4.1 分类性能评估在测试集上计算混淆矩阵和各类别指标from sklearn.metrics import confusion_matrix, classification_report def evaluate_model(model, test_loader): model.eval() all_preds [] all_labels [] with torch.no_grad(): for spectral, spatial, labels in test_loader: spectral spectral.to(device) spatial spatial.to(device) labels labels.to(device).squeeze() outputs, _, _ model(spectral, spatial) _, preds torch.max(outputs, 1) all_preds.extend(preds.cpu().numpy()) all_labels.extend(labels.cpu().numpy()) # 计算评估指标 cm confusion_matrix(all_labels, all_preds) report classification_report(all_labels, all_preds, target_namesclass_names) print(Confusion Matrix:) print(cm) print(\nClassification Report:) print(report) return cm, report4.2 注意力可视化绘制光谱和空间注意力图理解模型关注的重点import matplotlib.pyplot as plt def visualize_attention(model, sample): model.eval() spectral, spatial, label sample spectral spectral.unsqueeze(0).to(device) spatial spatial.unsqueeze(0).to(device) with torch.no_grad(): _, spec_attn, spat_attn model(spectral, spatial) # 光谱注意力 plt.figure(figsize(12,4)) plt.subplot(1,2,1) plt.plot(spectral.squeeze().cpu().numpy(), label光谱曲线) plt.plot(spec_attn.squeeze().cpu().numpy(), label注意力权重) plt.title(光谱注意力) plt.legend() # 空间注意力 plt.subplot(1,2,2) plt.imshow(spat_attn.squeeze().cpu().numpy(), cmaphot) plt.title(空间注意力热图) plt.colorbar() plt.show()5. 实战技巧与常见问题在实际复现过程中有几个关键点需要特别注意数据增强高光谱数据有限可以通过旋转、翻转等方式增加样本多样性梯度裁剪RNN容易出现梯度爆炸设置nn.utils.clip_grad_norm_控制梯度范围混合精度训练使用torch.cuda.amp加速训练并减少显存占用早停机制监控验证集损失当连续若干轮不下降时停止训练常见问题及解决方案问题现象可能原因解决方案训练损失不下降学习率设置不当尝试不同学习率或使用学习率查找器验证集准确率波动大批次大小不合适增大批次大小或使用梯度累积测试集性能差过拟合增加Dropout比例或使用更多正则化注意力权重集中模型退化检查初始化方式添加残差连接在Pavia University数据集上的实验表明完整的SSANet模型能够达到约98.2%的总体准确率相比单独使用CNN或RNN有显著提升。光谱注意力机制成功识别出对分类贡献最大的波段区域而空间注意力则有效聚焦于目标物体的中心区域。

从GPT-1到GPT-4o：一个普通开发者眼中的模型进化与实战选择指南

从GPT-1到GPT-4o：一个普通开发者眼中的模型进化与实战选择指南2018年6月的一个深夜，当我第一次在Colab笔记本上加载GPT-1的PyTorch实现时，屏幕上闪烁的CUDA out of memory错误让我意识到：这个仅有117M参数的"小模型"已经…

2026/6/14 22:34:53 阅读更多

从内存困境到流畅体验：PCL2启动器的智能资源管理革命

从内存困境到流畅体验：PCL2启动器的智能资源管理革命【免费下载链接】PCL Minecraft 启动器 Plain Craft Launcher（PCL）。项目地址: https://gitcode.com/gh_mirrors/pc/PCL 想象一下这样的场景：你精心准备的大型模组包终…

2026/6/14 22:31:10 阅读更多

别再死记硬背了！用一张图搞懂HDLC、X.25、帧中继和ATM的演进关系

从HDLC到ATM：解码分组交换技术的演进逻辑与技术抉择在备考网络工程师认证或研究广域网技术时，许多学习者常陷入协议细节的泥潭，却忽略了技术演进背后的核心逻辑。HDLC、X.25、帧中继和ATM这四种技术并非孤立存在，而是一部记录网络…

2026/6/14 22:30:09 阅读更多

从SpeexDSP迁移到WebRTC 3A：我们团队踩过的坑和性能提升实测（附代码对比）

从SpeexDSP迁移到WebRTC 3A：我们团队踩过的坑和性能提升实测（附代码对比）当我们的语音社交产品日活突破百万时，用户对通话质量的投诉开始集中爆发——多人连麦时的回声啸叫、地铁环境下的噪声干扰、音量忽大忽小的体验&#xff0c…

2026/6/15 0:18:13 阅读更多

LangChain 实战指南：从调用模型到构建 AI 应用：一次项目复盘里的真实取舍

《LangChain 实战指南：从调用模型到构建 AI 应用》看起来是个大话题，但真落到项目里，常常就是几个具体选择。下面我尽量按实际开发时会遇到的问题来讲。摘要这篇面向具备 Python 基础、想上手 AI 应用开发的开发者，但不会把“Lang…

2026/6/15 0:15:11 阅读更多

新手别怕！用GNS3从零搭建四路由器网络，手把手教你搞定RIP和OSPF动态路由

从零玩转GNS3：四路由器动态路由实验全指南第一次打开GNS3时，看着空白的画布和复杂的命令行界面，很多网络新手都会感到无从下手。动态路由协议更是让人望而生畏——那些术语、配置命令和排错过程，仿佛一道难以逾越的高墙。但别担心…

2026/6/15 0:14:10 阅读更多

3个步骤打造极致静音电脑：FanControl风扇控制软件完全指南

3个步骤打造极致静音电脑：FanControl风扇控制软件完全指南【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trendin…

2026/6/15 0:12:08 阅读更多

探索3大核心模块：构建个性化阅读生态的完整方案

探索3大核心模块：构建个性化阅读生态的完整方案【免费下载链接】Yuedu 📚「阅读」自用书源分享项目地址: https://gitcode.com/gh_mirrors/yu/Yuedu 在数字阅读的海洋中，阅读APP以其强大的自定义能力脱颖而出，而书源配置…

2026/6/15 0:11:48 阅读更多

CAD图纸防泄密软件有哪些？盘点六款CAD图纸加密软件，码住

做设计行业的都知道，CAD图纸一旦泄露，损失不是“几百几千”的问题，很多时候是整个项目被抄、方案被提前发布，甚至直接影响客户合作。所以现在越来越多企业开始重视CAD图纸防泄密软件，用技术手段把图纸“锁住”。下面盘…

2026/6/15 0:11:28 阅读更多

终极便携开发套件：5分钟快速上手w64devkit Windows开发环境

终极便携开发套件：5分钟快速上手w64devkit Windows开发环境【免费下载链接】w64devkit Portable C and C Development Kit for x64 (and x86) Windows 项目地址: https://gitcode.com/gh_mirrors/w6/w64devkit 你是否厌倦了在Windows上配置复杂的C/C开发环境…

2026/6/15 0:00:36 阅读更多

深蓝词库转换：打破20+输入法壁垒的技术架构深度解析

深蓝词库转换：打破20输入法壁垒的技术架构深度解析【免费下载链接】imewlconverter ”深蓝词库转换“ 一款开源免费的输入法词库转换程序项目地址: https://gitcode.com/gh_mirrors/im/imewlconverter 当你在不同平台间切换输入法时，是否曾为无…

2026/6/15 0:02:18 阅读更多

NSK紧凑型精密滚珠丝杠技术手册

型号 W1202FA-3P-C3Z5 属于 the sources 中 NSK 推出的紧凑型 FA 系列（Compact FA Series）高速精密滚珠丝杠。如果您一路追踪了之前的查询记录，这款产品正是您不久前查询的 125 规格（12 mm 粗轴、5 mm 导程、预紧无背隙版&#x…

2026/6/15 0:02:59 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/15 0:09:30 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/15 0:09:27 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/15 0:09:27 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/14 10:35:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/14 10:02:42 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…