PYTHON+AI LLM DAY FIFITY-SIX 今天简单聊聊Transformer:首先是注意力,注意力就是人在第一时间对指定数据的关注程度.于是源于注意力的注意力机制就是通过模仿人类的感知方式,注意力等让机器能够感知数据里面重要和不重要的部分.我们已经知道RNN(LSTM,GRU传统RNN的变体)处理长序列问题都容易出现梯度消失,梯度爆炸等问题,面对超长序列更是不能用.基于注意力机制的seq2seq的三大部分:编码器,解码器,中间语义向量C.能够完成文本翻译的基本工作.但是句子一旦过长,它一样不知道前面内容是啥?因为它底层用的是RNN,一样摆脱不了RNN的弊端(不能处理长序列),于是基于注意力机制,继承seq2seq的编码器和解码器,自回归生成方式,训练与推理策略的Transformer框架于2017年由google团队正式推出,它解决了长序列依赖和并行计算的问题.其基本网络架构为:一个编码器,一个解码器.两个输入,一个输出.输入位置:源文本嵌入层及其位置编码器,目标文本嵌入层及其位置编码器.输出位置:Linear层和softmax层.编码器:一个大层包含两个子层.每个子层都有一个残差连接层和一个规范化层.两个子层就是多头注意力层和前馈全连接层.解码器:一个大层包含3个子层,分别为:多头注意力层(掩码),多头注意力层(接收编码器部分的K,V和自己部分的Q,QKV源于注意力机制的步骤),前馈全连接层.同样每个子层都有残差连接层和规范化层.编码器和解码器的个数默认都是6个.