从图像分类到推荐系统：聊聊MLP这个‘特例’在Transformer和CTR模型里为啥又火了

发布时间：2026/6/8 20:45:22

从图像分类到推荐系统MLP在Transformer和CTR模型中的复兴之谜当深度学习领域被卷积神经网络CNN和循环神经网络RNN主导多年后一个看似过时的架构——多层感知机MLP正在以令人惊讶的方式回归前沿舞台。这种回归并非简单的复古而是MLP在Transformer架构和推荐系统等新兴场景中展现出独特的价值。本文将深入探讨MLP这一特例如何在非空间数据处理领域重新焕发活力。1. MLP的涅槃重生从基础组件到核心模块MLP作为深度学习中最基础的架构之一曾因其全连接特性在图像处理领域被CNN取代。传统观点认为MLP在处理图像时会丢失空间信息参数效率低下。然而在自然语言处理和推荐系统等非空间数据领域MLP却展现出意想不到的优势。MLP的核心优势在于全局信息处理能力不受局部感受野限制可同时考虑所有输入特征强大的特征变换能力通过多层非线性变换实现复杂特征交互并行计算效率相比RNN等序列模型MLP可充分利用现代硬件加速在Transformer架构中MLP以前馈网络(FFN)的形式成为核心组件之一。一个典型的Transformer FFN层可表示为class FeedForwardNetwork(nn.Module): def __init__(self, d_model, d_ff): super().__init__() self.linear1 nn.Linear(d_model, d_ff) self.linear2 nn.Linear(d_ff, d_model) self.activation nn.GELU() def forward(self, x): return self.linear2(self.activation(self.linear1(x)))这种简单的两层MLP结构配合残差连接在语言模型中展现出惊人的表达能力。研究表明FFN层在Transformer中承担了大部分的实际知识存储和转换工作。2. Transformer中的MLP不只是简单的特征变换在Transformer架构中MLP模块通常称为FFN或前馈网络位于自注意力层之后承担着关键的信息处理角色。与直觉相反这些看似简单的全连接层在模型性能中起着决定性作用。Transformer中MLP的独特设计扩展-收缩结构先扩展到更高维度通常4倍于输入维度再收缩回原维度位置级处理每个位置独立通过相同的MLP保持位置独立性非线性变换使用GELU等现代激活函数增强表达能力提示在大型语言模型中FFN层的参数往往占模型总参数的2/3以上远多于注意力层的参数。近期研究揭示了Transformer中MLP层的几个有趣现象发现说明意义稀疏激活只有少量神经元对特定输入激活类似专家混合(MoE)的行为模式存储特定神经元对应特定语言模式承担事实知识存储功能跨层进化低层处理语法高层处理语义形成层次化表征这些发现表明Transformer中的MLP远非简单的特征变换器而是承担了模型大部分思考工作的核心组件。3. 推荐系统中的MLP革命从特征交互到深度CTR模型在推荐系统领域MLP同样经历了一场复兴。传统的协同过滤方法逐渐被基于深度学习的点击率(CTR)预测模型取代而MLP在这些模型中扮演着关键角色。推荐系统中MLP的典型应用场景特征嵌入组合将稀疏特征嵌入转换为稠密表示高阶特征交互自动学习特征间的复杂非线性关系最终预测层综合所有信息产生点击概率预测以经典的DeepFM模型为例其MLP部分结构如下class DeepFM(nn.Module): def __init__(self, field_size, feature_sizes, embedding_size4): super().__init__() # FM部分省略... # DNN部分 self.mlp nn.Sequential( nn.Linear(field_size*embedding_size, 256), nn.BatchNorm1d(256), nn.ReLU(), nn.Linear(256, 128), nn.BatchNorm1d(128), nn.ReLU(), nn.Linear(128, 1) ) def forward(self, x): # FM部分计算省略... dnn_output self.mlp(embeddings.flatten(1)) return torch.sigmoid(fm_output dnn_output)现代推荐模型如DCN、xDeepFM等进一步创新了MLP的应用方式通过交叉网络、压缩激励等机制增强MLP的特征交互能力。4. MLP与CNN的辩证关系何时选择MLP虽然MLP在特定领域重新受到重视但理解其与CNN的根本区别仍然至关重要。选择架构时需要考虑以下几个关键因素数据特性对比特性MLP优势场景CNN优势场景空间局部性弱强平移不变性不需要重要特征交互全局局部参数效率低高计算效率高中等MLP更适合的场景特征间没有明显空间关系如用户行为序列需要建模全局特征交互输入维度相对固定且不高计算效率是关键考量CNN更适合的场景输入具有强空间结构如图像、视频需要利用平移不变性参数效率是关键考量需要层次化特征提取在实际应用中两种架构常常结合使用。例如Vision Transformer中先用CNN提取局部特征再用Transformer中的MLP处理全局关系多模态模型中可能用CNN处理图像MLP处理文本。5. MLP的创新变体超越传统全连接随着MLP在新时代的应用研究者们提出了多种创新变体进一步释放了MLP的潜力。这些改进使MLP能够更好地适应现代深度学习的需求。前沿MLP变体一览MLP-Mixer完全基于MLP的视觉架构通过转置操作交替处理空间和通道信息在图像分类任务上达到接近CNN的性能class MLPMixerBlock(nn.Module): def __init__(self, dim, seq_len, mlp_ratio4): super().__init__() self.norm1 nn.LayerNorm(dim) self.mlp1 nn.Sequential( nn.Linear(seq_len, seq_len*mlp_ratio), nn.GELU(), nn.Linear(seq_len*mlp_ratio, seq_len) ) self.norm2 nn.LayerNorm(dim) self.mlp2 nn.Sequential( nn.Linear(dim, dim*mlp_ratio), nn.GELU(), nn.Linear(dim*mlp_ratio, dim) ) def forward(self, x): x x self.mlp1(self.norm1(x).transpose(1,2)).transpose(1,2) x x self.mlp2(self.norm2(x)) return xgMLP引入空间门控机制的MLP通过门控控制信息流动在语言建模任务上表现优异ResMLP结合残差连接的纯MLP架构使用线性层代替自注意力训练效率显著高于Transformer这些创新表明MLP架构仍然有巨大的探索空间特别是在如何有效处理长距离依赖和提升参数效率方面。6. 实践指南有效应用MLP组件的关键技巧在实际项目中成功应用MLP组件需要考虑多个工程细节。以下是从业者在构建基于MLP的模型时积累的实用经验MLP调优技巧维度选择中间层维度通常是输入维度的2-4倍太窄会导致表达能力不足太宽会增加过拟合风险可参考公式hidden_size max(4*sqrt(input_size), 256)正则化策略Dropout率通常设置在0.1-0.3之间权重衰减(L2正则)系数建议1e-4到1e-5批量归一化可显著改善深层MLP训练激活函数选择ReLU简单高效但可能有死亡神经元问题GELUTransformer中的默认选择表现优异Swish自动搜索发现的激活函数效果稳定常见陷阱与解决方案问题现象解决方案梯度消失深层MLP难以训练使用残差连接/适当的初始化过拟合训练集表现远好于测试集增加Dropout/早停/正则化计算瓶颈MLP部分成为速度瓶颈尝试分组卷积/降低维度内存溢出参数量过大使用参数共享/蒸馏技术在推荐系统实践中发现MLP层数的选择存在一个甜蜜点——通常3-5层效果最佳。过深的MLP反而会降低模型性能这可能与推荐数据的特性有关。

告别HC-05！用ESP32内置蓝牙实现主从机通信，成本直降且更灵活

ESP32内置蓝牙通信实战：从HC-05迁移到芯片级解决方案的完整指南当你在面包板上堆满杜邦线时，有没有想过那些外接的HC-05模块正在偷走项目的优雅性？我们曾习惯在UART和AT指令中辗转，却忽略了ESP32这颗芯片里沉睡的蓝牙潜能。本文将…

2026/6/8 20:45:01 阅读更多

FactoryBERT：面向制造业的垂直领域语言模型

1. 项目概述：为什么工厂需要自己的“母语”AI你有没有在车间里站过十分钟？不是隔着玻璃窗看，而是真正站在CNC加工中心旁边，听主轴高速旋转的嗡鸣，闻冷却液混着金属碎屑的微腥，看操作工一边盯着HMI屏幕上的O…

2026/6/8 20:44:41 阅读更多

信号处理实战：用db4小波分析你的传感器数据（MATLAB验证+C语言移植避坑指南）

信号处理实战：用db4小波分析你的传感器数据（MATLAB验证C语言移植避坑指南）当你面对一长串传感器采集的时间序列数据时，是否曾想过这些数字背后隐藏着怎样的故事？振动传感器捕捉的机械故障特征、ECG信号中的心律失常征兆…

2026/6/8 20:44:20 阅读更多

合并采集数据图片进展AI识别

数显千分表测量泵箱步进精度使用数显千分表矫正泵箱进程【合并采集数据图片】采集程序 #!/usr/local/bin/python # -*- coding: gbk -*- # # TEST1.PY -- by Dr. ZhuoQing 2026-06-08 # # Note: #from headm import * import serial from _ast import …

2026/6/8 21:57:53 阅读更多

摆脱论文困扰!2026年好用AI论文网站榜单，毕业论文免费写还合规

2026 年实测 10 款主流 AI 论文工具，千笔AI以全流程覆盖语义级降重免费查重领跑综合榜；ThouPen 稳坐留学生毕业全流程工具头把交椅；免费工具中DeepSeek Scholar、豆包学术版表现亮眼，30 分钟即可生成万字高质量初稿&#xff0…

2026/6/8 21:57:53 阅读更多

AI-Shoujo HF Patch终极指南：一站式游戏增强解决方案 [特殊字符]

AI-Shoujo HF Patch终极指南：一站式游戏增强解决方案 🎮 【免费下载链接】AI-HF_Patch Automatically translate, uncensor and update AI-Shoujo! 项目地址: https://gitcode.com/gh_mirrors/ai/AI-HF_Patch AI-Shoujo HF Patch是一款专为AI-Sho…

2026/6/8 21:57:53 阅读更多

九十年代至2000年初：底层沉默的苦难纪

九十年代至2000年初：底层沉默的苦难纪这是一段极少被详细记述，却刻在无数普通家庭骨血里的民间往事。改革开放放开人口流动，亿万农民第一次挣脱土地，奔赴城市、深山矿区、乡间小作坊讨生计。彼时没有智能手机、全域监控、全国联网…

2026/6/8 21:57:12 阅读更多

深入SM4算法S盒：用C语言手动实现查表与优化技巧

深入SM4算法S盒：用C语言手动实现查表与优化技巧在密码学领域，分组密码算法的核心组件往往决定了整个系统的安全性和性能。SM4作为我国自主设计的商用密码标准算法，其S盒（Substitution-box）作为唯一的非线性部件&#x…

2026/6/8 21:56:30 阅读更多

深入浅出图解HDFS透明加密：从KMS、EZ Key到EDEK，一次搞懂密钥流转全过程

深入浅出图解HDFS透明加密：从KMS、EZ Key到EDEK，一次搞懂密钥流转全过程在大数据生态系统中，数据安全始终是重中之重。想象一下，当你的数据节点被物理入侵，攻击者直接访问磁盘上的数据块时，如何确保敏感信息…

2026/6/8 21:56:10 阅读更多

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现【免费下载链接】amlogic-s9xxx-armbian Supports running Armbian on Amlogic, Allwinner, and Rockchip devices. Support a311d, s922x, s905x3, s905x2, s912, s905d, s905x, …

2026/6/8 0:00:25 阅读更多

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

前言在 Python 爬虫开发领域中，Scrapy 作为高性能、高可扩展性的异步爬虫框架，是行业内采集结构化数据的首选工具。在中小型爬虫项目、本地数据采集、轻量化数据存储场景中，SQLite 无需独立服务、单文件存储、原生兼容 Python 的特性&#…

2026/6/8 0:00:45 阅读更多

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案【免费下载链接】btrfs WinBtrfs - an open-source btrfs driver for Windows 项目地址: https://gitcode.com/gh_mirrors/bt/btrfs 还在为Windows无法访问Linux Btrfs分区而烦恼吗？你是…

2026/6/8 0:03:08 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/8 0:06:11 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/8 0:06:11 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/8 0:06:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/8 9:43:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/8 9:43:23 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/8 9:43:30 阅读更多

相关文章

告别HC-05！用ESP32内置蓝牙实现主从机通信，成本直降且更灵活

FactoryBERT：面向制造业的垂直领域语言模型

信号处理实战：用db4小波分析你的传感器数据（MATLAB验证+C语言移植避坑指南）

合并采集数据图片进展AI识别

摆脱论文困扰!2026年好用AI论文网站榜单，毕业论文免费写还合规

AI-Shoujo HF Patch终极指南：一站式游戏增强解决方案 [特殊字符]

九十年代至2000年初：底层沉默的苦难纪

深入SM4算法S盒：用C语言手动实现查表与优化技巧

深入浅出图解HDFS透明加密：从KMS、EZ Key到EDEK，一次搞懂密钥流转全过程

解决老旧机顶盒资源化难题：Amlogic S9xxx Armbian项目在TY1608设备上的系统适配实现

Python Scrapy 爬虫实战进阶系列（一）：轻量化数据存储 - 数据精准写入 SQLite 数据库

3步实现Windows直读Btrfs分区：跨平台文件系统互通终极方案

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因