【RT-DETR实战】052、线性复杂度注意力:PVT,PoolFormer 思想借鉴 从一次显存爆炸说起上周在部署RT-DETR到边缘设备时遇到个头疼的问题:输入分辨率提到640x640以上,显存直接爆了。profile工具一跑,注意力模块占了70%+的内存。这才意识到,Transformer那O(N²)的复杂度在真实场景里有多要命。于是开始寻找既能保持性能又能降复杂度的方案,这就引出了今天要聊的线性注意力。为什么需要线性复杂度?传统自注意力的计算量随序列长度呈平方增长。对于目标检测任务,特征图拉平后的序列长度轻松上万(比如80x80的特征图就是6400)。这在实际部署中几乎是不可接受的,尤其对嵌入式设备。PVT(Pyramid Vision Transformer)和PoolFormer给了我们两条不同的思路:一条是改造注意力机制本身,另一条是直接抛弃注意力用更简单的东西替代。PVT的核心:空间缩减注意力PVT最巧妙的地方在于SRA(Spatial Reduction Attention)。它不像ViT那样对每个patch都做注意力,而是先把特征图降采样。classSpatialReductionAttention(nn.Mod