《CVPR2025-DEIM创新改进项目实战:从原理到部署的深度学习优化全攻略》019、TimeSformer-DEIM与SlowFast-DEIM CVPR2025-DEIM创新改进项目实战:TimeSformer-DEIM与SlowFast-DEIM一、从一次诡异的显存爆炸说起去年年底,我在调试一个视频行为识别模型时遇到了一个让人抓狂的问题。模型用的是TimeSformer,输入是32帧224x224的视频片段,batch size设了8,按理说A100 80G应该绰绰有余。结果训练到第3个epoch,显存直接飙到78G,然后OOM崩了。我盯着nvidia-smi看了半天,发现一个规律:每次崩之前,显存占用都会出现一个“阶梯式”的跳变,而不是平滑增长。这让我想起之前做图像检测时遇到的DEIM(Dynamic Efficient Inference Module)——那个模块在静态图像上通过动态路由机制减少了冗余计算,但它的显存占用曲线是平滑的。而TimeSformer的显存跳变,恰恰是因为它在时间维度上做了全自注意力,每一帧都跟所有帧做交互,导致中间特征图的尺寸随着序列长度呈二次增长。这个问题的本质是:视频理解任务中,时间维度的冗余计算比空间维度更严重。TimeSformer在每一层都做时空分离注意力,但很多帧之间的运动信息是稀疏的;SlowFast两条路径虽然设计了不同的时间分辨率,但Fast路径的密集采样依然存在大量重复计算。于是我把DEIM的动态路由思想搬到了视频领域,做了两个变体:TimeSformer-DEIM和SlowFast-DEIM。下面直接讲实现细节,不绕弯子。二、TimeSfor