论文标题Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation超越稠密连接面向可扩展推荐的显式稀疏论文作者Yantao Yu、Sen Qiao、Lei Shen、Bing Wang、Xiaoyi Zeng阿里巴巴国际数字商业集团 AIDC杭州一句话总结针对推荐数据高维极稀疏的本质本文提出SSR框架用先过滤、再融合filter-then-fuse的多视图显式稀疏替代稠密全连接配套静态随机过滤SSR-S与动态迭代竞争稀疏ICS两种实现成功打破稠密 MLP 的规模化天花板——工业数据 Click AUC 达 0.6667线上 A/B GMV 3.5%。背景与动机大模型 Scaling Law 的成功让推荐系统也想通过加深、加宽稠密 MLP来吃下海量行为数据。但作者发现推荐输入是高维且极度稀疏的简单堆叠稠密 backbone 常常收益递减、甚至掉点。作者对一个线上工业 CTR 模型的全连接层权重做了可视化分析下图得到一个关键现象——隐式连接稀疏implicit connection sparsity左图即使没有加任何稀疏约束如 L2 正则超过92%的连接权重都被隐式压到近零 10⁻³。右图80%的权重能量只集中在top 4%的输入维度上。这说明稠密连接与稀疏数据之间存在结构性错配模型被迫花大量算力去处理海量低价值连接而不是真正有效的信号稠密结构本身反而成了模型建模能力的主要瓶颈。核心 insight这种隐式稀疏是低效的——权重只是被驱近零既没真正切断噪声干扰也没有原则化的信号过滤机制。本文主张把稀疏显式化explicit sparsity从训练副产物变成可控的架构设计在源头阻断噪声传播。又因为什么是噪声因用户而异静态稀疏结构不够还需要样本自适应sample-conditional的动态稀疏。整体架构SSRExplicitSparsity forScalableRecommendation的核心是把一个标准稠密层替换成先过滤、再融合的两级级联结构。单个SSR Layer包含两个阶段Multi-view Sparse Filtering多视图稀疏过滤把输入分解成b个并行纯化视图purification views每个视图内部做维度级的显式过滤隔离噪声维度。Intra-view Dense Fusion视图内稠密融合只在过滤后的干净子空间里做稠密非线性变换避免噪声被重新聚合稀释。端到端数据流原始特征用户画像 候选商品属性 交叉统计 行为序列→ Embedding 拼接成初始向量x ∈ R^{d_in}→ 拆成b个视图 → 每个视图先Filter (Fᵢ)再Fuse (Mᵢ)→ 各视图输出 LayerNorm 后拼接得到y。整体映射用一个 concat 算子表达yConcat(ϕ1(x),…,ϕb(x))∈Rb⋅dv(1) y \mathrm{Concat}(\phi_1(x), \ldots, \phi_b(x)) \in \mathbb{R}^{b \cdot d_v} \quad (1)yConcat(ϕ1(x),…,ϕb(x))∈Rb⋅dv(1)变量说明x ∈ R^{d_in}所有特征 embedding 拼接后的初始输入向量d_in为总输入维度。φᵢ第i个视图的映射内部 稀疏过滤Fᵢ 稠密融合Mᵢ的严格两阶段。b视图数并行分支数。d_v单个视图输出的子空间维度。y ∈ R^{b·d_v}一层 SSR 的最终输出由b个视图结果拼接而成。模块拆解3.1 Multi-view Sparse Filtering稀疏过滤阶段模块作用对每个视图从高维输入x中抽取纯化表示做维度级的信号过滤。输入x ∈ R^{d_in}输出b个纯化向量hᵢ。hiFi(x)(2) h_i F_i(x) \quad (2)hiFi(x)(2)这本质是b个并行的过滤操作。作者给出两种Fᵢ的实现分别侧重高效结构稀疏和上下文自适应稀疏。SSR-S静态随机过滤Static Random Filter把Fᵢ当作一个与样本无关的算子用一个固定的二值选择矩阵实现硬性降维hixMi(3) h_i x M_i \quad (3)hixMi(3)变量说明Mᵢ ∈ {0,1}^{d_in × d_v}二值选择矩阵每一列都是严格的 one-hot 向量初始化后固定不变。构造方式从输入维度{1,…,d_in}中无放回均匀采样d_v个特征索引视图内不重复但不同视图间独立采样允许特征重叠。这种独立性带来 “Feature Bagging” 效应促进各视图的结构多样性与鲁棒性。hᵢ ∈ R^{d_v}过滤后的视图表示。关键工程点由于Mᵢ是列 one-hotxMᵢ无需真正做矩阵乘法而是零 FLOP 的并行 gather 操作直接索引切片。这在计算前就把未选中维度硬性砍掉是真正的硬降维——对比 Top-k 之类的逻辑稀疏乘 0但计算图仍是 O(d²) 宽SSR-S 把维度选择成本与推理成本彻底解耦。SSR-D迭代竞争稀疏Iterative Competitive Sparse, ICS为了捕捉上下文相关的稀疏用可微的动态机制 ICS详见第 4 节根据样本语义动态置零弱响应维度hiICSi(xWiproj)(4) h_i \mathrm{ICS}_i(x W_i^{proj}) \quad (4)hiICSi(xWiproj)(4)变量说明W_i^proj ∈ R^{d_in × d_v*}第i个视图的可学习投影矩阵。hᵢ ∈ R^{d_v*}动态过滤后的稀疏表示视图维度通常被扩张d_v* d_v以给自适应稀疏留出容量空间。输出hᵢ中大部分非关键元素被严格截断为真零hard zero而非小概率值。3.2 Intra-view Dense Fusion稠密融合阶段模块作用在过滤后的干净子空间里做高阶非线性建模。因为噪声已在上一阶段被切断这里的稠密融合只作用于信息密集子空间避免全局稠密结构的信号稀释。数学上它等价于对拼接输入施加一个块对角权重矩阵W_block diag(V₁,…,V_b)——强制各视图之间严格语义隔离。第i个视图的输出ziσ(hiVibiasi)(5) z_i \sigma(h_i V_i \mathrm{bias}_i) \quad (5)ziσ(hiVibiasi)(5)所有视图输出再经 LayerNorm 并拼接yconcat(LayerNorm(z1),…,LayerNorm(zb))(6) y \mathrm{concat}(\mathrm{LayerNorm}(z_1), \ldots, \mathrm{LayerNorm}(z_b)) \quad (6)yconcat(LayerNorm(z1),…,LayerNorm(zb))(6)变量说明Vᵢ第i个视图的融合权重矩阵静态时Vᵢ ∈ R^{d_v × d_v}动态时Vᵢ ∈ R^{d_v* × d_v}。σ激活函数如 GELU。biasᵢ视图偏置。zᵢ第i个视图融合后的输出y ∈ R^{b·d_v}为该层最终输出。实现上用b个并行投影完成不存储零值的非对角块。复杂度优势块对角结构的参数量为O(b · d_v²)而标准全连接层是O((b · d_v)²)。利用视图独立性SSR 把复杂度降低了 1/b 倍从而能在同等算力预算下大幅扩张参数量。3.3 可扩展架构三个正交的 Scaling 维度SSR 支持沿三个正交维度扩展深度L堆叠层数、视图宽度b视图数、子空间维度d_v。纵向堆叠促进层次化特征演化横向增加b拓宽逻辑视野以捕捉多样交互扩大d_v增强局部变换的表达力。实验结论b是最可靠的扩展维度见下文 RQ2。Iterative Competitive SparseICS机制详解ICS 是 SSR-D 的核心它把稀疏化从离散 Top-k 排序重新表述为一个可微的离散时间非线性动力系统从而支持端到端梯度优化。生物学类比把输入p ∈ R^{d_v}看作生态系统中的种群特征强度代表生命力vitality“。系统施加一个全局抑制场”遵循适者生存——只有显著强于抑制场的特征才能存活其余收敛到真零。整个过程分三步初始化 → 迭代竞争 → 信号恢复。4.1 初始化与竞争动力学先把投影特征整流为非负保证强度有物理意义x(0)ReLU(z)(7) x^{(0)} \mathrm{ReLU}(z) \quad (7)x(0)ReLU(z)(7)随后进入T轮迭代t 0,…,T-1。每一步先计算全局抑制场μ^(t)当前所有特征的均值μ(t)1dv∑j1dvxj(t)(8) \mu^{(t)} \frac{1}{d_v} \sum_{j1}^{d_v} x_j^{(t)} \quad (8)μ(t)dv1j1∑dvxj(t)(8)再执行适者生存的状态更新x(t1)ReLU(x(t)−αt⋅μ(t))(9) x^{(t1)} \mathrm{ReLU}\left(x^{(t)} - \alpha_t \cdot \mu^{(t)}\right) \quad (9)x(t1)ReLU(x(t)−αt⋅μ(t))(9)变量说明z ∈ R^{d_v}ICS 的投影输入即x W_i^proj。x^(t) ∈ R^{d_v}第t轮的系统状态特征强度向量。μ^(t) ∈ R第t轮的全局抑制场等于当前特征均值。α_t ∈ R第t轮的可学习灭绝率extinction rateα {α₀,…,α_{T-1}}不同迭代用不同的α_t。T迭代轮数默认T5。为什么必须迭代T1特征的统计分布在过滤过程中并不稳定。单步阈值化T1只能对噪声底噪做静态估计而通过T轮迭代随着噪声被逐步灭绝均值μ^(t)会不断逼近真实信号基线实现先去粗噪、再精调的渐进式过滤——逼近单次线性过滤无法达到的复杂非线性稀疏化。由于α_t 0且μ^(t) ≥ 0更新规则保证任何特征强度都不会增大系统能量单调非增∥x(t1)∥1≤∥x(t)∥1(10) \|x^{(t1)}\|_1 \le \|x^{(t)}\|_1 \quad (10)∥x(t1)∥1≤∥x(t)∥1(10)每轮只做加减法和求均值均为O(N)操作T轮总复杂度O(T·N)严格线性。4.2 Signal Recovery信号恢复上式的能量单调衰减虽能过滤噪声但也会过度衰减有用信号。为此引入可学习缩放参数γ做恢复yγ⊙x(T)(11) y \gamma \odot x^{(T)} \quad (11)yγ⊙x(T)(11)变量说明γ ∈ R^{d_v}可学习的重缩放向量逐维度独立权重⊙为逐元素乘。虽然理论上后续线性层能吸收一个标量缩放但作者特意用γ把恢复与变换解耦让γ充当方差稳定器保证数值稳定与最优动态范围。y ∈ R^{d_v}ICS 最终输出的稀疏特征。4.3 相比其他 Top-k 机制的优势对比对象问题ICS 的改进STE-based Top-k直通估计离散截断导致梯度失配gradient mismatch连续动力系统梯度流一致、训练稳定Soft Top-k / NeuralSort依赖排序复杂度 O(N log N) 超线性并行竞争抑制严格线性 O(T·N)软注意力softmax 正权重只给低概率噪声维度仍保留噪声维度被驱动到真零源头阻断传播训练目标SSR不引入任何额外的辅助损失或显式多样性正则项。所有视图输出被拼接后统一在标准 CTR 任务损失二元交叉熵 / LogLoss下端到端优化。ICS 前向过程完全可微可直接嵌入梯度优化。作者特别指出视图多样性是自然涌现的——由于所有视图共享同一个 loss训练会自动抑制冗余视图、偏好捕捉互补模式的视图Figure 6 的余弦相似度热图验证了各视图近似正交因此无需显式的多样性正则。关键超参实验设置embedding 维度统一为 16优化器 Adambatch size 1024early stoppingICS 迭代T5灭绝率α_t初始化为 0.1缩放γ初始化为全 1 向量。实验分析数据集三个公开集Criteo、Avazu、Alibaba 一个来自AliExpress 的十亿级工业数据集10 亿 生产日志、300 特征字段按时间切分模拟线上。指标AUC、LogLoss工业集额外用 GAUC 缓解用户活跃度偏置。6.1 效果与效率RQ1工业数据集上SSR 全面超越经典交互模型、AutoML/注意力模型与 SOTA 可扩展架构Wukong、RankMixer模型Click AUCClick GAUCPay AUCPay GAUC#ParamsFLOPsDense MLP0.65930.62810.80830.677060M3.4GDeepFM0.65630.62510.80530.673013M0.6GDCN v20.65710.62620.80650.674215M0.9GMMoE0.65780.62670.80630.675721M1.2GAutoInt0.65940.62790.80780.676926.2M1.7GAutoFIS0.65920.62850.80850.677710.8M0.5GWukong0.66150.62980.81150.680593M2.9GRankMixer最强 baseline0.66210.63050.81220.6815101M3.2GSSR-S静态0.66440.63260.81620.684157M1.4GSSR-D动态 ICS0.66670.63510.81940.6862100M3.3G关键结论SSR-S 用 56% 参数、44% FLOPs 就反超 RankMixer且优于同参数量的 Dense MLP——说明增益来自稀疏架构本身而非单纯堆参数。SSR-D 取得全场最佳Click AUC 0.6667、Pay AUC 0.8194均对最强 baseline 显著性 p0.05。公开集上同样稳定领先SSR-D 相对 RankMixer 的 AUC 提升为Avazu 0.63%、Criteo 0.03%、Alibaba 0.43%SSR-S 在 Avazu 上以约一半参数/FLOPs 反超 RankMixer0.7827 vs 0.7772。6.2 可扩展性分析RQ2三个维度的对比表明增加视图数b是最可靠的扩展维度。在十亿级工业数据上瓶颈是欠拟合视图扩展的曲线一路稳步上升到b64无饱和宽度d_v在中低资源区间是有效的次选但高复杂度时收益递减深度L的每 FLOP 收益最低很早就饱和。而在小数据集 Avazu 上各维度普遍饱和d_v超过 128 甚至掉点。从 5M 到近 900M 参数的 scaling 轨迹显示SSR 不仅精度更高斜率也更陡。Dense MLP 早早过早饱和翻倍参数收益递减而 SSR 全程保持稳步上升——证实显式稀疏过滤是打破规模化天花板的关键。6.3 消融与机制分析RQ3各组件的贡献ΔAUC×10⁻²即 pt移除/替换设置Avazu ΔAUCIndustrial ΔAUCw/o 稀疏过滤输入直接进稠密块-0.50-0.37w/o 多视图策略b1-0.22-0.15静态 SSR-S vs 动态-0.12-0.23Top-k (STE) vs ICS-0.18-0.29Dropout vs SSR-S-0.32-0.45稀疏过滤是最关键组件去掉掉点最多验证了全局稠密对推荐输入次优的核心假设Dropout 替换的大幅掉点证明增益并非来自正则化而是学到了有意义的稀疏。ICS 训练动态显示稀疏度在训练早期快速上升并稳定Layer 1 特征幅值随训练增大Layer 2 则先在前 1 万步短暂下降抑制弱/冗余特征再回升强化保留特征。ICS 超参敏感性AvazuTable 5迭代TT1 → 76.4% 稀疏 / 0.7821T2 → 88.6% / 0.7826T5默认→ 91.0% / 0.7835最佳。灭绝率α_t在 [0.01, 0.5] 区间稀疏度从 80.4% 平滑升到 94.0%AUC 保持稳定0.7828~0.7835α₀是有效的稀疏调节旋钮机制鲁棒不脆弱。缩放γ去掉后 AUC 降至 0.7832vs 0.7835验证幅值恢复对抵消信号衰减的必要性。6.4 线上 A/B 测试RQ4在核心推荐场景以生产标准 RankMixer同参数量为基线SSR-D 做两周线上实验模型Latency延迟CTROrders人均订单GMVSSR-D (Ours)26ms1ms2.1%3.2%3.5%CTR 2.1%、人均订单 3.2%、GMV 3.5%且几乎不增加系统延迟1ms——说明收益来自结构设计的表征质量提升而非牺牲推理耗时。优势与局限优势范式创新把推荐数据的隐式稀疏显式化用先过滤、再融合在源头阻断噪声传播理论清晰、动机扎实。两种互补实现SSR-S 零 FLOP 硬降维、极致高效SSR-D 的 ICS 是可微、线性复杂度O(T·N)、驱动噪声到真零的动态稀疏避免了 Top-k 的梯度失配与排序的超线性开销。规模化更优块对角结构把复杂度降低 1/bscaling 曲线更陡、天花板更高打破 Dense MLP 的早饱和。落地验证充分十亿级工业数据 三个公开集 两周线上 A/BGMV 3.5%延迟近乎持平。局限基于论文讨论客观陈述视图数b是最优扩展维度但在小数据集如 Avazu上各维度普遍早饱和d_v过大甚至掉点——方法的规模化红利更依赖大数据体量。ICS 引入迭代轮数T、灭绝率α_t、缩放γ等额外超参虽然论文显示鲁棒但仍需针对数据集做一定调参如T5为经验最优。论文聚焦 CTR/CVR 排序场景未涉及召回、序列建模等其它推荐链路环节的适配性。
阿里:显式稀疏打破推荐规模化天花板
发布时间:2026/7/5 6:17:52
论文标题Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation超越稠密连接面向可扩展推荐的显式稀疏论文作者Yantao Yu、Sen Qiao、Lei Shen、Bing Wang、Xiaoyi Zeng阿里巴巴国际数字商业集团 AIDC杭州一句话总结针对推荐数据高维极稀疏的本质本文提出SSR框架用先过滤、再融合filter-then-fuse的多视图显式稀疏替代稠密全连接配套静态随机过滤SSR-S与动态迭代竞争稀疏ICS两种实现成功打破稠密 MLP 的规模化天花板——工业数据 Click AUC 达 0.6667线上 A/B GMV 3.5%。背景与动机大模型 Scaling Law 的成功让推荐系统也想通过加深、加宽稠密 MLP来吃下海量行为数据。但作者发现推荐输入是高维且极度稀疏的简单堆叠稠密 backbone 常常收益递减、甚至掉点。作者对一个线上工业 CTR 模型的全连接层权重做了可视化分析下图得到一个关键现象——隐式连接稀疏implicit connection sparsity左图即使没有加任何稀疏约束如 L2 正则超过92%的连接权重都被隐式压到近零 10⁻³。右图80%的权重能量只集中在top 4%的输入维度上。这说明稠密连接与稀疏数据之间存在结构性错配模型被迫花大量算力去处理海量低价值连接而不是真正有效的信号稠密结构本身反而成了模型建模能力的主要瓶颈。核心 insight这种隐式稀疏是低效的——权重只是被驱近零既没真正切断噪声干扰也没有原则化的信号过滤机制。本文主张把稀疏显式化explicit sparsity从训练副产物变成可控的架构设计在源头阻断噪声传播。又因为什么是噪声因用户而异静态稀疏结构不够还需要样本自适应sample-conditional的动态稀疏。整体架构SSRExplicitSparsity forScalableRecommendation的核心是把一个标准稠密层替换成先过滤、再融合的两级级联结构。单个SSR Layer包含两个阶段Multi-view Sparse Filtering多视图稀疏过滤把输入分解成b个并行纯化视图purification views每个视图内部做维度级的显式过滤隔离噪声维度。Intra-view Dense Fusion视图内稠密融合只在过滤后的干净子空间里做稠密非线性变换避免噪声被重新聚合稀释。端到端数据流原始特征用户画像 候选商品属性 交叉统计 行为序列→ Embedding 拼接成初始向量x ∈ R^{d_in}→ 拆成b个视图 → 每个视图先Filter (Fᵢ)再Fuse (Mᵢ)→ 各视图输出 LayerNorm 后拼接得到y。整体映射用一个 concat 算子表达yConcat(ϕ1(x),…,ϕb(x))∈Rb⋅dv(1) y \mathrm{Concat}(\phi_1(x), \ldots, \phi_b(x)) \in \mathbb{R}^{b \cdot d_v} \quad (1)yConcat(ϕ1(x),…,ϕb(x))∈Rb⋅dv(1)变量说明x ∈ R^{d_in}所有特征 embedding 拼接后的初始输入向量d_in为总输入维度。φᵢ第i个视图的映射内部 稀疏过滤Fᵢ 稠密融合Mᵢ的严格两阶段。b视图数并行分支数。d_v单个视图输出的子空间维度。y ∈ R^{b·d_v}一层 SSR 的最终输出由b个视图结果拼接而成。模块拆解3.1 Multi-view Sparse Filtering稀疏过滤阶段模块作用对每个视图从高维输入x中抽取纯化表示做维度级的信号过滤。输入x ∈ R^{d_in}输出b个纯化向量hᵢ。hiFi(x)(2) h_i F_i(x) \quad (2)hiFi(x)(2)这本质是b个并行的过滤操作。作者给出两种Fᵢ的实现分别侧重高效结构稀疏和上下文自适应稀疏。SSR-S静态随机过滤Static Random Filter把Fᵢ当作一个与样本无关的算子用一个固定的二值选择矩阵实现硬性降维hixMi(3) h_i x M_i \quad (3)hixMi(3)变量说明Mᵢ ∈ {0,1}^{d_in × d_v}二值选择矩阵每一列都是严格的 one-hot 向量初始化后固定不变。构造方式从输入维度{1,…,d_in}中无放回均匀采样d_v个特征索引视图内不重复但不同视图间独立采样允许特征重叠。这种独立性带来 “Feature Bagging” 效应促进各视图的结构多样性与鲁棒性。hᵢ ∈ R^{d_v}过滤后的视图表示。关键工程点由于Mᵢ是列 one-hotxMᵢ无需真正做矩阵乘法而是零 FLOP 的并行 gather 操作直接索引切片。这在计算前就把未选中维度硬性砍掉是真正的硬降维——对比 Top-k 之类的逻辑稀疏乘 0但计算图仍是 O(d²) 宽SSR-S 把维度选择成本与推理成本彻底解耦。SSR-D迭代竞争稀疏Iterative Competitive Sparse, ICS为了捕捉上下文相关的稀疏用可微的动态机制 ICS详见第 4 节根据样本语义动态置零弱响应维度hiICSi(xWiproj)(4) h_i \mathrm{ICS}_i(x W_i^{proj}) \quad (4)hiICSi(xWiproj)(4)变量说明W_i^proj ∈ R^{d_in × d_v*}第i个视图的可学习投影矩阵。hᵢ ∈ R^{d_v*}动态过滤后的稀疏表示视图维度通常被扩张d_v* d_v以给自适应稀疏留出容量空间。输出hᵢ中大部分非关键元素被严格截断为真零hard zero而非小概率值。3.2 Intra-view Dense Fusion稠密融合阶段模块作用在过滤后的干净子空间里做高阶非线性建模。因为噪声已在上一阶段被切断这里的稠密融合只作用于信息密集子空间避免全局稠密结构的信号稀释。数学上它等价于对拼接输入施加一个块对角权重矩阵W_block diag(V₁,…,V_b)——强制各视图之间严格语义隔离。第i个视图的输出ziσ(hiVibiasi)(5) z_i \sigma(h_i V_i \mathrm{bias}_i) \quad (5)ziσ(hiVibiasi)(5)所有视图输出再经 LayerNorm 并拼接yconcat(LayerNorm(z1),…,LayerNorm(zb))(6) y \mathrm{concat}(\mathrm{LayerNorm}(z_1), \ldots, \mathrm{LayerNorm}(z_b)) \quad (6)yconcat(LayerNorm(z1),…,LayerNorm(zb))(6)变量说明Vᵢ第i个视图的融合权重矩阵静态时Vᵢ ∈ R^{d_v × d_v}动态时Vᵢ ∈ R^{d_v* × d_v}。σ激活函数如 GELU。biasᵢ视图偏置。zᵢ第i个视图融合后的输出y ∈ R^{b·d_v}为该层最终输出。实现上用b个并行投影完成不存储零值的非对角块。复杂度优势块对角结构的参数量为O(b · d_v²)而标准全连接层是O((b · d_v)²)。利用视图独立性SSR 把复杂度降低了 1/b 倍从而能在同等算力预算下大幅扩张参数量。3.3 可扩展架构三个正交的 Scaling 维度SSR 支持沿三个正交维度扩展深度L堆叠层数、视图宽度b视图数、子空间维度d_v。纵向堆叠促进层次化特征演化横向增加b拓宽逻辑视野以捕捉多样交互扩大d_v增强局部变换的表达力。实验结论b是最可靠的扩展维度见下文 RQ2。Iterative Competitive SparseICS机制详解ICS 是 SSR-D 的核心它把稀疏化从离散 Top-k 排序重新表述为一个可微的离散时间非线性动力系统从而支持端到端梯度优化。生物学类比把输入p ∈ R^{d_v}看作生态系统中的种群特征强度代表生命力vitality“。系统施加一个全局抑制场”遵循适者生存——只有显著强于抑制场的特征才能存活其余收敛到真零。整个过程分三步初始化 → 迭代竞争 → 信号恢复。4.1 初始化与竞争动力学先把投影特征整流为非负保证强度有物理意义x(0)ReLU(z)(7) x^{(0)} \mathrm{ReLU}(z) \quad (7)x(0)ReLU(z)(7)随后进入T轮迭代t 0,…,T-1。每一步先计算全局抑制场μ^(t)当前所有特征的均值μ(t)1dv∑j1dvxj(t)(8) \mu^{(t)} \frac{1}{d_v} \sum_{j1}^{d_v} x_j^{(t)} \quad (8)μ(t)dv1j1∑dvxj(t)(8)再执行适者生存的状态更新x(t1)ReLU(x(t)−αt⋅μ(t))(9) x^{(t1)} \mathrm{ReLU}\left(x^{(t)} - \alpha_t \cdot \mu^{(t)}\right) \quad (9)x(t1)ReLU(x(t)−αt⋅μ(t))(9)变量说明z ∈ R^{d_v}ICS 的投影输入即x W_i^proj。x^(t) ∈ R^{d_v}第t轮的系统状态特征强度向量。μ^(t) ∈ R第t轮的全局抑制场等于当前特征均值。α_t ∈ R第t轮的可学习灭绝率extinction rateα {α₀,…,α_{T-1}}不同迭代用不同的α_t。T迭代轮数默认T5。为什么必须迭代T1特征的统计分布在过滤过程中并不稳定。单步阈值化T1只能对噪声底噪做静态估计而通过T轮迭代随着噪声被逐步灭绝均值μ^(t)会不断逼近真实信号基线实现先去粗噪、再精调的渐进式过滤——逼近单次线性过滤无法达到的复杂非线性稀疏化。由于α_t 0且μ^(t) ≥ 0更新规则保证任何特征强度都不会增大系统能量单调非增∥x(t1)∥1≤∥x(t)∥1(10) \|x^{(t1)}\|_1 \le \|x^{(t)}\|_1 \quad (10)∥x(t1)∥1≤∥x(t)∥1(10)每轮只做加减法和求均值均为O(N)操作T轮总复杂度O(T·N)严格线性。4.2 Signal Recovery信号恢复上式的能量单调衰减虽能过滤噪声但也会过度衰减有用信号。为此引入可学习缩放参数γ做恢复yγ⊙x(T)(11) y \gamma \odot x^{(T)} \quad (11)yγ⊙x(T)(11)变量说明γ ∈ R^{d_v}可学习的重缩放向量逐维度独立权重⊙为逐元素乘。虽然理论上后续线性层能吸收一个标量缩放但作者特意用γ把恢复与变换解耦让γ充当方差稳定器保证数值稳定与最优动态范围。y ∈ R^{d_v}ICS 最终输出的稀疏特征。4.3 相比其他 Top-k 机制的优势对比对象问题ICS 的改进STE-based Top-k直通估计离散截断导致梯度失配gradient mismatch连续动力系统梯度流一致、训练稳定Soft Top-k / NeuralSort依赖排序复杂度 O(N log N) 超线性并行竞争抑制严格线性 O(T·N)软注意力softmax 正权重只给低概率噪声维度仍保留噪声维度被驱动到真零源头阻断传播训练目标SSR不引入任何额外的辅助损失或显式多样性正则项。所有视图输出被拼接后统一在标准 CTR 任务损失二元交叉熵 / LogLoss下端到端优化。ICS 前向过程完全可微可直接嵌入梯度优化。作者特别指出视图多样性是自然涌现的——由于所有视图共享同一个 loss训练会自动抑制冗余视图、偏好捕捉互补模式的视图Figure 6 的余弦相似度热图验证了各视图近似正交因此无需显式的多样性正则。关键超参实验设置embedding 维度统一为 16优化器 Adambatch size 1024early stoppingICS 迭代T5灭绝率α_t初始化为 0.1缩放γ初始化为全 1 向量。实验分析数据集三个公开集Criteo、Avazu、Alibaba 一个来自AliExpress 的十亿级工业数据集10 亿 生产日志、300 特征字段按时间切分模拟线上。指标AUC、LogLoss工业集额外用 GAUC 缓解用户活跃度偏置。6.1 效果与效率RQ1工业数据集上SSR 全面超越经典交互模型、AutoML/注意力模型与 SOTA 可扩展架构Wukong、RankMixer模型Click AUCClick GAUCPay AUCPay GAUC#ParamsFLOPsDense MLP0.65930.62810.80830.677060M3.4GDeepFM0.65630.62510.80530.673013M0.6GDCN v20.65710.62620.80650.674215M0.9GMMoE0.65780.62670.80630.675721M1.2GAutoInt0.65940.62790.80780.676926.2M1.7GAutoFIS0.65920.62850.80850.677710.8M0.5GWukong0.66150.62980.81150.680593M2.9GRankMixer最强 baseline0.66210.63050.81220.6815101M3.2GSSR-S静态0.66440.63260.81620.684157M1.4GSSR-D动态 ICS0.66670.63510.81940.6862100M3.3G关键结论SSR-S 用 56% 参数、44% FLOPs 就反超 RankMixer且优于同参数量的 Dense MLP——说明增益来自稀疏架构本身而非单纯堆参数。SSR-D 取得全场最佳Click AUC 0.6667、Pay AUC 0.8194均对最强 baseline 显著性 p0.05。公开集上同样稳定领先SSR-D 相对 RankMixer 的 AUC 提升为Avazu 0.63%、Criteo 0.03%、Alibaba 0.43%SSR-S 在 Avazu 上以约一半参数/FLOPs 反超 RankMixer0.7827 vs 0.7772。6.2 可扩展性分析RQ2三个维度的对比表明增加视图数b是最可靠的扩展维度。在十亿级工业数据上瓶颈是欠拟合视图扩展的曲线一路稳步上升到b64无饱和宽度d_v在中低资源区间是有效的次选但高复杂度时收益递减深度L的每 FLOP 收益最低很早就饱和。而在小数据集 Avazu 上各维度普遍饱和d_v超过 128 甚至掉点。从 5M 到近 900M 参数的 scaling 轨迹显示SSR 不仅精度更高斜率也更陡。Dense MLP 早早过早饱和翻倍参数收益递减而 SSR 全程保持稳步上升——证实显式稀疏过滤是打破规模化天花板的关键。6.3 消融与机制分析RQ3各组件的贡献ΔAUC×10⁻²即 pt移除/替换设置Avazu ΔAUCIndustrial ΔAUCw/o 稀疏过滤输入直接进稠密块-0.50-0.37w/o 多视图策略b1-0.22-0.15静态 SSR-S vs 动态-0.12-0.23Top-k (STE) vs ICS-0.18-0.29Dropout vs SSR-S-0.32-0.45稀疏过滤是最关键组件去掉掉点最多验证了全局稠密对推荐输入次优的核心假设Dropout 替换的大幅掉点证明增益并非来自正则化而是学到了有意义的稀疏。ICS 训练动态显示稀疏度在训练早期快速上升并稳定Layer 1 特征幅值随训练增大Layer 2 则先在前 1 万步短暂下降抑制弱/冗余特征再回升强化保留特征。ICS 超参敏感性AvazuTable 5迭代TT1 → 76.4% 稀疏 / 0.7821T2 → 88.6% / 0.7826T5默认→ 91.0% / 0.7835最佳。灭绝率α_t在 [0.01, 0.5] 区间稀疏度从 80.4% 平滑升到 94.0%AUC 保持稳定0.7828~0.7835α₀是有效的稀疏调节旋钮机制鲁棒不脆弱。缩放γ去掉后 AUC 降至 0.7832vs 0.7835验证幅值恢复对抵消信号衰减的必要性。6.4 线上 A/B 测试RQ4在核心推荐场景以生产标准 RankMixer同参数量为基线SSR-D 做两周线上实验模型Latency延迟CTROrders人均订单GMVSSR-D (Ours)26ms1ms2.1%3.2%3.5%CTR 2.1%、人均订单 3.2%、GMV 3.5%且几乎不增加系统延迟1ms——说明收益来自结构设计的表征质量提升而非牺牲推理耗时。优势与局限优势范式创新把推荐数据的隐式稀疏显式化用先过滤、再融合在源头阻断噪声传播理论清晰、动机扎实。两种互补实现SSR-S 零 FLOP 硬降维、极致高效SSR-D 的 ICS 是可微、线性复杂度O(T·N)、驱动噪声到真零的动态稀疏避免了 Top-k 的梯度失配与排序的超线性开销。规模化更优块对角结构把复杂度降低 1/bscaling 曲线更陡、天花板更高打破 Dense MLP 的早饱和。落地验证充分十亿级工业数据 三个公开集 两周线上 A/BGMV 3.5%延迟近乎持平。局限基于论文讨论客观陈述视图数b是最优扩展维度但在小数据集如 Avazu上各维度普遍早饱和d_v过大甚至掉点——方法的规模化红利更依赖大数据体量。ICS 引入迭代轮数T、灭绝率α_t、缩放γ等额外超参虽然论文显示鲁棒但仍需针对数据集做一定调参如T5为经验最优。论文聚焦 CTR/CVR 排序场景未涉及召回、序列建模等其它推荐链路环节的适配性。