AI大模型学习指南小白程序员必收藏的进阶秘籍本文深入浅出地介绍了AI大模型的发展历程从助手到协作再到原创阶段并详细解析了生成式AI、监督学习、无监督学习等核心概念。文章还详细阐述了大语言模型的构成要素和Transformer模型的技术细节帮助读者全面了解大模型的技术内涵。对于想要入门或进阶AI大模型的程序员和小白本文提供了宝贵的学习资源和建议助力他们在AI领域抓住未来机遇。1、认识AI大模型家族生成式AI、监督学习、无监督学习、强化学习、深度学习、大语言模型、Transformer等这些算法之间又是什么关系呢其实这些AI知识点如何了解原理可以一言以蔽之先通过一张图感性认识它们之间的关系。2、AI是什么人工智能Artificial Intelligence英文缩写为AI。是计算机科学的一个分支学科旨在让计算机系统去模拟人类的智能从而解决问题和完成任务。早在1956年AI就被确立为了一个学科领域在此后数十年间经历过多轮低谷与繁荣。AI是新一轮科技革命和产业变革的重要驱动力量是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是智能学科重要的组成部分它企图了解智能的实质并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能是十分广泛的科学包括机器人、语言识别、图像识别、自然语言处理、专家系统、机器学习计算机视觉等。 AI发展经历了很多举足轻重的关键里程碑例如从1943年的神经网络诞生到2024年的Sora风靡全球经历了81年的心路历程。3、机器学习是什么机器学习是AI的一个子集它的核心在于不需要人类做显示编程而是让计算机通过算法自行学习和改进去识别模式做出预测和决策。比如如果我们通过代码告诉电脑图片里有红色说明是玫瑰图片里有橙色说明是向日葵程序对花种类的判断就是通过人类直接明确编写逻辑达成的不属于机器学习。举例如果我的电脑有大量玫瑰和向日葵的图片让电脑自行识别模式总结规律从而能对没见过的图片进行预测和判断这种就是机器学习。机器学习有哪些分支机器学习有多个分支包括监督学习、无监督学习、强化学习。在监督学习里机器学习算法会接受有标签的训练数据标签就是期望的输出值所以每个训练数据点都既包括输入特征也包括期望的输出值。算法的目标是学习输入和输出之间的映射关系从而在给定新的输入特征后能够准确预测出相应的输出值。监督学习任务包括分类和回归分类数据划分为不同的类别。举例拿一堆猫和狗的照片和照片对应的猫狗标签进行训练然后让模型根据没见过的照片预测是猫还是狗这就属于分类。举例拿一些房子特征的数据比如面积、卧室数、是否带阳台等和相应的房价作为标签进行训练。回归是让模型根据没见过的房子的特征预测房价是什么数值这就属于回归。无监督学习和监督学习不同主要是学习的数据是没有标签的所以算法的任务是自主发现数据里的规律。无监督学习任务包括聚类就是把数据进行分组举例拿一堆新闻文章让模型根据主题或内容的特征自动把相似文章进行组织。4、什么是强化学习强化学习是让模型在环境里采取行动获得结果反馈从反馈里学习从而能在给力情况下采取最佳行动来最大化奖励或是最小化损失。举例和训练小狗类似刚开始的时候小狗会随心所欲做出很多动作但随着和训犬师的互动小伙会发现某些动作能够获得零食某些动作没有流失某些动作甚至会遭受惩罚。通过观察动作和奖惩之间的联系小狗的行为会逐渐接近训犬师的期望。强化学习可以应用在很多任务上举例让模型下围棋时获得不同行动导致的奖励或损失反馈从而在一局游戏里优化策略学习如何采取行动达到高分。5、深度学习属于哪一类学习深度学习属于机器学习中的特殊类深度学习是机器学习的一个分支核心在于使用人工神经网络模仿人脑处理信息的方式通过层次化的方法提取和表示数据的特征专注于非结构化数据处理。神经网络是有许多基本的计算和储存单元组成这些单元被称为神经元。这些神经元通过层层连接来处理数据并且深度学习模型通常有很多层因此称为深度。神经网络可以用于监督学习、无监督学习、强化学习所以深度学习不属于他们的子集。总之深度学习是机器学习的一个特定领域它利用人工神经网络模型进行学习和训练。深度学习模型由多个层次称为神经网络的层组成每一层都会对输入数据进行变换和表示。这些网络层通过一系列的非线性转换将输入数据映射到输出结果。深度学习模型的核心是深度神经网络Deep Neural NetworkDNN它可以通过大量的标记数据进行训练从而实现高度准确的预测和分类任务。这里必须提一下卷积神经网络CNN是深度学习的杰出代表作革命性提升了AI模型在江湖上的多年霸主地位卷积神经网络作为深度学习中的一种重要网络结构具有自动提取特征和高效分类的能力。随着深度学习技术的发展CNN在计算机视觉、自然语言处理、语音识别等领域取得了显著的成果。6、生成式AI和深度学习是什么关系其是深度学习的一种应用它利用神经网络来识别现有的模式和结构学习生成新的内容内容形式可以是文本、图片、音频。而大语言模型也叫LLM large language model,也是深度学习的一种应用专门用于进行自然语言处理任务。生成式AI的原理主要基于深度学习技术和神经网络。其基本原理是通过训练模型来学习从输入到输出的映射关系。这种映射关系通常由一组权重和偏置参数来定义这些参数是通过优化损失函数来获得的。通过调整这些参数模型可以逐渐改进其预测和生成结果的能力。生成式AI的优点在于它可以高效地生成大量有意义的内容比如文章、图像、音频等。此外它还可以根据用户的个性化需求生成符合用户兴趣和需求的内容。但是生成式AI也存在一些缺点比如它可能会出现语法错误、语义错误等问题而且它生成的内容可能缺乏创新性和独特性。7、大语言模型是什么公式大模型 海量数据 深度学习算法 超强算力数据是训练原材料深度学习算法是计算法则算力是硬件计算力大模型是预测模型。大语言模型里面的“大”字说明模型的参数量非常大可能有数十亿甚至到万亿个而且训练过程中也需要海量文本数据集所以能更好的理解自然语言以及生成高质量的文本。大语言模型的例子有非常多比如国外的GPT、LLaMA国内的ERNIE、ChatGLM等可以进行文本的理解和生成。补充Token是个标记是指将输入文本分解为更小的单位例如单词、字母或字符。在自然语言处理中将文本分解为标记有助于模型理解语义和语法结构。当一个Prompt被发送给GPT时它会被分解成多个Token这个过程被称为Tokenier。一般情况下对于英文单词四个字符表示一个标记Token。对于ChatGPT3.5来说它最开始支持的Token最大值是4096。所有大语言模型都是生成式AI不是所有的生成式AI都是大语言模型而所有的大语言模型是否都是生成式AI这也存在些许争议。生成图像的扩散模型如Sora就不是大语言模型它并不输出文本。因为有些大元模型由于其架构特点不适合进行文本生成。举例谷歌的BERT就是一个例子它的参数量和训练数据很大属于大语言模型。应用方面BERT理解上下文的能力很强因此被谷歌用在搜索上用来提高搜索排名和信息摘录的准确性。它也被用于情感分析、文本分类等任务。但同时其不擅长文本生成。特别是连贯的常文本生成所以普遍认为此类模型不属于生成式AI的范畴。大语言模型LLM到底是个啥2022年10月30日OpenAI发布ChatGPT一跃成为当下最快达到100万用户的线上产品也带动大语言模型成为了当下热点更多AI聊天助手如雨后春笋一般出现在大家的视野里。那大语言模型干什么了大语言模型也叫LLM 是用于做自然语言相关任务的深度学习模型可以模型一些文本内容输入它能返回相应的输出完成的具体任务可以是生成、分类、总结、改写等。大语言模型首先需要通过大量文本进行无监督学习。大模型LLM的“大”是什么含义大模型的大指的不仅仅是训练数据巨大而是参数数量巨大。参数是模型内部的变量可以理解为是模型在训练过程中学到的知识。参数决定了模型如何对输入数据做出反应从而决定模型的行为。在过去的语言模型研究中发现用更多的数据和算力来训练具有更多参数的模型很多时候能带来更好的模型表现。这就需要AI学习。如今语言模型的参数数量可能是曾经的数万倍甚至数百万倍。以Open AI的第一个大模型GPT1为例它有1.17亿个参数到了GPT2参数有15亿个参数而这GPT3参数又增长到了1750亿个。这样大模型不像小模型那样局限于单项或某几项任务而是具有更加广泛的能力。比如在这之前我们可能要训练单独的模型分别去做总结、分类、提取等等任务但现在一个大模型就可以搞定这一切。像GPT Cloud、文心一言、通义千问等AI聊天助手都是基于大语言模型的应用。8、LLM核心技术到底是什么大语言模型公众认知其技术发展里程碑其实要回溯到2017年6月谷歌团队发表论文《Attention is all you need》提出了transformer架构至此自然语言处理的发展方向被革命性的颠覆了。随后出现了一系列基于transformer架构的模型2018年OpenAI发布GPT1.0谷歌发布BERT2019年OpenAI发布了GPT2.0百度发布ERNIE1.0等。所以大语言模型的发展早就如火如荼了。9、为什么Transformer模型能一统江湖GPT直接向公众开放而且能让用户在网页上用对话的方式进行交互体验很流畅丝滑大众的目光才被GPT吸引过去全称是Generative Pre-trained Transformer生成式预训练Transformer是其中的关键。所以要了解大语言模型必须搞懂Transformer。在Transformer架构被提出之前语言模型的主流架构主要是循环神经网络RNN其按照顺序逐字处理每一步输出取决于先前的隐藏状态和当前的输入要等上一个步骤完成后才能进行当前的计算。因此无法完成并行计算训练效率低而且RNN不擅长处理长序列因为难以捕捉到长距离依赖性的语义关系。接下来为了捕捉到长距离依赖性也出现了RNN的改良版本就是LSTM长短期记忆网络但是这也并没有解决传统并行计算的问题而且在处理非常长的序列时也依然受到限制。最后Transformer腾空出世了他有能力学习输入序列里所有词的相关性和上下文不会受到短时记忆的影响。能做到这一点的关键在于Transformer的自注意力机制。也正如论文标题所说Attention is all you need,注意力就是你所需要的一切。Transformer的自注意力机制是干什么的简单来说Transformer在处理每个词的时候不仅会注意这个词本身以及它附近的词还会去注意输入序列里所有其他的词然后其余每个词不一样的注意力权重。权重是模型在训练过程中通过大量文本逐渐学习到因此Transformer有能力知道当前这个词和其他词之间的相关性有多强然后去专注于输入里真正重要的部分。即使两个词的位置隔得很远Transform依然可以捕获他们之间的依赖关系举例给出一个句子使用一些关键词animal和street来描述it到底指代什么题目写出了一些关键词如animalstreet作为提示其中这些给出的关键词就可以看作是key 而整个的文本信息就相当于是query脑子里浮现的答案信息是value默认是street。第一次看到这段文本后脑子里基本上浮现的信息就只有提示这些信息此时key与value street基本是相同的。第二次进行深入理解后脑子里想起来的东西原来越多对query这一个句子提取关键信息tired进行关联这就是注意力作用的过程 通过这个过程我们最终脑子里的value发生了变化变成了animal。总结一下 使用一般注意力机制是使用不同于给定文本的关键词表示它。 而自注意力机制需要用给定文本自身来表达自己也就是说你需要从给定文本中抽取关键词来表述它相当于对文本自身的一次特征提取。10、Transformer背后的黑科技是什么Transformer目标是是通过预测出现概率最高的下一个词来实现文本生成的这种效果有点像搜索引擎的自动补全。每当我们输入一个新的字或词输入框就开始预测后面的文本概率越高的排在越上面。但模型具体到底是如何得到各个词出现的概率呢有两个核心部分组成**编码器Encoder和解码器Decoder**。举例做中文翻英语的任务给编码器输入一句英语解码器返回对应的法语。“我是一个学生”的翻译如何工作的第一步转换为计算机可以计算的向量Token。中文的每个字被理解为是文本的一个基本单位翻译成不同的token。是指将输入文本分解为更小的单位例如单词、字母或字符。在自然语言处理中将文本分解为标记有助于模型理解语义和语法结构。当一个Prompt被发送给GPT时它会被分解成多个Token这个过程被称为Tokenier。短单词可能每个词是一个token长单词可能被拆成多个token。每个token会被用一个整数数字表示这个数字被叫做token ID。这是因为计算机内部是无法储存文字的任何字符最终都得用数字来表示。有了数字表示的输入文本后再把它传入嵌入层。如下是官网提供的Tokenization示意图。第二步Embedding嵌入层。其作用是让每个token都用向量表示向量可以被简单的看为一串数字举例假设把向量长度简化为1-521实际中向量长度可以非常长。**为什么要用一串数字表示token**重要原因是一串数字能表达的含义是大于一个数字的能包含更多语法、语义信息等等。这就好比对人的画像如果只有男人和女人这两个属性太少维度的描述需要增加籍贯身高爱好和专业等维度才能更好的刻画人的特征。多个数字就是多个特征我们就可以进行更多维度的表示特征。嵌入层的向量里面包含了词汇之间语法、语义等关系。向量长度到底可以多长呢在transformer 论文里向量长度是512GPT3里设置为12288可以想象能包含多少信息。第三步位置编码。Transformer的一项关键机制是位置编码。在语言里顺序很重要即使句子里包含的字都是一样的但顺序不一样也能导致意思大相迳庭。这是为什么自然语言处理领域会用序列这个词因为它表示一系列按照特定顺序排序的元素。前面提到RNN和人类阅读文本一样对输入序列同样是按顺序依次处理这就造成了训练速度的瓶颈因为只能串行没办法并行也就是没法同时去学习所有信息。Transformer把词输入给神经网络前除了会先对词进行嵌入转换成向量也就是把词用一串数字表示它会把每个词在句子中的位置也各用一串数字表示添加到输入序列的表示中然后把这个结果给神经网络模型既可以理解每个词的意义又能够捕获词在句子中的位置。从而理解不同词之间的顺序关系。借助位置编码可以不按顺序输入给Transformer模型可以同时处理输入序列里的所有位置而不需要像RNN那样依次处理。那么在计算时每个输出都可以独立的计算不需要等待其他位置的计算结果这大大提高了训练速度。训练速度一快训练出巨大的模型也不是这么难了。位置编码就是把表示各个词在文本里顺序的向量和上一步得到词向量相加然后把得到的结果传给编码器。这样做的意义是模型既可以理解每个词的意义又能够捕捉词在句子中的位置从而理解不同词之间的顺序关系。第四步编码器。它的主要任务是把输入转换成一种更抽象的表示形式这个表示形式也是向量表示的一串数字里面既保留了输入文本的词汇信息和顺序关系也捕捉了语法语义上的关键特征。捕捉关键特征的核心是编码器的自注意力机制。模型在处理每个词的时候不仅会关注这个词本身和它附近的词还会关注序列中所有其他词。正如transformer论文标题所说自注意力机制通过计算每对词之间的相关性来决定注意力权重。实际上执行中Transformer使用了多头注意力机制也就是编码器不只有一个注意力机制模块每个头都有他自己的注意力权重用来关注文本里不同特征或方面比如有的关注动词有的关注修饰词有的关注情感有的关注病理实体等等。而且他们之间可以做并行运算也就是计算进展上互不影响。第五步解码器。它是大语言模型生成一个个词的关键。通过前面的编码器我们有了输入序列里各个token的抽象表示可以把它传给解码器。解码器还会先接收一个特殊值这个值表示输出序列的开头。这样做的原因是解码器不仅会把来自编码器的输入序列的抽象表示作为输入还会把之前已经生成的来保持输出的连贯性和上下文相关性。刚开始还没有任何已生成的文本所以把表示开头的特殊值先作为输入。具体的生成过程仍然是要经过多个步骤。首先和编码器一样文本要经过我们已经了解过的嵌入层和位置编码然后被输入进多头自注意力层但它和编码器里的多头自注意力层却不一样。当编码器在处理各个词的时候他会关注输入序列里所有其他词但解码器中自注意力机制只会关注这个词和它前面的其他词后面的词要被遮住而不去关注。这样做是为了确保解码器生成文本时遵循正确的时间顺序不能先让他偷看后面的词在预测下一个词时只是用前面的词作为上下文。这种类型的多头注意力机制被叫做带掩码的多头注意力机制。另外的一个注意力机制会捕捉编码器的输出和解码器即将生成的输出之间的对应关系从而将原始输入序列的信息融合到输出序列的生成过程中。解码器里的前馈神经网络作用和编码器里的类似也是通过额外的计算来增强模型的表达能力。最后和编码器一样解码器同样是多个堆叠到一起的这可以增加模型的性能有助于处理复杂的输入输出关系。解码器的最后阶段包含了一个线性和一个softmax层他们加一块的作用是把解码器输出的表示转化为词汇表的概率分布这个词汇表的概率分布代表下一个次被生成token的概率一般来说模型会选择概率最高的token作为下一个输出。因此解码器就是预测下一个输出的token就像GPT的功能类似。Transformer演变了哪些成功的模型第一个是仅编码器模型也叫自编码器模型比如BERT让模型猜文本里被遮出的词是什么情感分析让模型判断文本情感是积极还是消极。目标是理解语言的任务。第二个是仅解码器模型也叫自回归模型如GPT2GPT3,通过预测下一个词来预测文本生成。目标文本生成。第三个是编码器和解码器模型也叫序列到序列模型比如T5BART一个序列转换为另外一个序列目标翻译总结。总之各个模块总结如下注意力层使用多头注意力Multi-Head Attention机制整合上下文语义它使得序列中任意两个单词之间的依赖关系可以直接被建模而不基于传统的循环结构从而更好地解决文本的长程依赖。位置感知前馈层Position-wise FFN通过全连接层对输入文本序列中的每个单词表示进行更复杂的变换。残差连接对应图中的Add 部分。它是一条分别作用在上述两个子层当中的直连通路被用于连接它们的输入与输出。从而使得信息流动更加高效有利于模型的优化。层归一化对应图中的Norm 部分。作用于上述两个子层的输出表示序列中对表示序列进行层归一化操作同样起到稳定优化的作用。最后近期科技圈传来重磅消息行业巨头英特尔宣布大规模裁员2万人传统技术岗位持续萎缩的同时另一番景象却在AI领域上演——AI相关技术岗正开启“疯狂扩招”模式据行业招聘数据显示具备3-5年大模型相关经验的开发者在大厂就能拿到50K×20薪的高薪待遇薪资差距肉眼可见业内资深HR预判不出1年“具备AI项目实战经验”将正式成为技术岗投递的硬性门槛。在行业迭代加速的当下“温水煮青蛙”式的等待只会让自己逐渐被淘汰与其被动应对不如主动出击抢先掌握AI大模型核心原理落地应用技术项目实操经验借行业风口实现职业翻盘深知技术人入门大模型时容易走弯路我特意整理了一套全网最全最细的大模型零基础学习礼包涵盖入门思维导图、经典书籍手册、从入门到进阶的实战视频、可直接运行的项目源码等核心内容。这份资料无需付费免费分享给所有想入局AI大模型的朋友扫码免费领取全部内容部分资料展示1、 AI大模型学习路线图2、 全套AI大模型应用开发视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 大模型学习书籍文档4、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、大模型大厂面试真题整理了百度、阿里、字节等企业近三年的AI大模型岗位面试题涵盖基础理论、技术实操、项目经验等维度每道题都配有详细解析和答题思路帮你针对性提升面试竞争力。6、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。扫码免费领取全部内容这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
AI大模型学习指南:小白程序员必收藏的进阶秘籍
发布时间:2026/6/11 13:39:47
AI大模型学习指南小白程序员必收藏的进阶秘籍本文深入浅出地介绍了AI大模型的发展历程从助手到协作再到原创阶段并详细解析了生成式AI、监督学习、无监督学习等核心概念。文章还详细阐述了大语言模型的构成要素和Transformer模型的技术细节帮助读者全面了解大模型的技术内涵。对于想要入门或进阶AI大模型的程序员和小白本文提供了宝贵的学习资源和建议助力他们在AI领域抓住未来机遇。1、认识AI大模型家族生成式AI、监督学习、无监督学习、强化学习、深度学习、大语言模型、Transformer等这些算法之间又是什么关系呢其实这些AI知识点如何了解原理可以一言以蔽之先通过一张图感性认识它们之间的关系。2、AI是什么人工智能Artificial Intelligence英文缩写为AI。是计算机科学的一个分支学科旨在让计算机系统去模拟人类的智能从而解决问题和完成任务。早在1956年AI就被确立为了一个学科领域在此后数十年间经历过多轮低谷与繁荣。AI是新一轮科技革命和产业变革的重要驱动力量是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是智能学科重要的组成部分它企图了解智能的实质并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能是十分广泛的科学包括机器人、语言识别、图像识别、自然语言处理、专家系统、机器学习计算机视觉等。 AI发展经历了很多举足轻重的关键里程碑例如从1943年的神经网络诞生到2024年的Sora风靡全球经历了81年的心路历程。3、机器学习是什么机器学习是AI的一个子集它的核心在于不需要人类做显示编程而是让计算机通过算法自行学习和改进去识别模式做出预测和决策。比如如果我们通过代码告诉电脑图片里有红色说明是玫瑰图片里有橙色说明是向日葵程序对花种类的判断就是通过人类直接明确编写逻辑达成的不属于机器学习。举例如果我的电脑有大量玫瑰和向日葵的图片让电脑自行识别模式总结规律从而能对没见过的图片进行预测和判断这种就是机器学习。机器学习有哪些分支机器学习有多个分支包括监督学习、无监督学习、强化学习。在监督学习里机器学习算法会接受有标签的训练数据标签就是期望的输出值所以每个训练数据点都既包括输入特征也包括期望的输出值。算法的目标是学习输入和输出之间的映射关系从而在给定新的输入特征后能够准确预测出相应的输出值。监督学习任务包括分类和回归分类数据划分为不同的类别。举例拿一堆猫和狗的照片和照片对应的猫狗标签进行训练然后让模型根据没见过的照片预测是猫还是狗这就属于分类。举例拿一些房子特征的数据比如面积、卧室数、是否带阳台等和相应的房价作为标签进行训练。回归是让模型根据没见过的房子的特征预测房价是什么数值这就属于回归。无监督学习和监督学习不同主要是学习的数据是没有标签的所以算法的任务是自主发现数据里的规律。无监督学习任务包括聚类就是把数据进行分组举例拿一堆新闻文章让模型根据主题或内容的特征自动把相似文章进行组织。4、什么是强化学习强化学习是让模型在环境里采取行动获得结果反馈从反馈里学习从而能在给力情况下采取最佳行动来最大化奖励或是最小化损失。举例和训练小狗类似刚开始的时候小狗会随心所欲做出很多动作但随着和训犬师的互动小伙会发现某些动作能够获得零食某些动作没有流失某些动作甚至会遭受惩罚。通过观察动作和奖惩之间的联系小狗的行为会逐渐接近训犬师的期望。强化学习可以应用在很多任务上举例让模型下围棋时获得不同行动导致的奖励或损失反馈从而在一局游戏里优化策略学习如何采取行动达到高分。5、深度学习属于哪一类学习深度学习属于机器学习中的特殊类深度学习是机器学习的一个分支核心在于使用人工神经网络模仿人脑处理信息的方式通过层次化的方法提取和表示数据的特征专注于非结构化数据处理。神经网络是有许多基本的计算和储存单元组成这些单元被称为神经元。这些神经元通过层层连接来处理数据并且深度学习模型通常有很多层因此称为深度。神经网络可以用于监督学习、无监督学习、强化学习所以深度学习不属于他们的子集。总之深度学习是机器学习的一个特定领域它利用人工神经网络模型进行学习和训练。深度学习模型由多个层次称为神经网络的层组成每一层都会对输入数据进行变换和表示。这些网络层通过一系列的非线性转换将输入数据映射到输出结果。深度学习模型的核心是深度神经网络Deep Neural NetworkDNN它可以通过大量的标记数据进行训练从而实现高度准确的预测和分类任务。这里必须提一下卷积神经网络CNN是深度学习的杰出代表作革命性提升了AI模型在江湖上的多年霸主地位卷积神经网络作为深度学习中的一种重要网络结构具有自动提取特征和高效分类的能力。随着深度学习技术的发展CNN在计算机视觉、自然语言处理、语音识别等领域取得了显著的成果。6、生成式AI和深度学习是什么关系其是深度学习的一种应用它利用神经网络来识别现有的模式和结构学习生成新的内容内容形式可以是文本、图片、音频。而大语言模型也叫LLM large language model,也是深度学习的一种应用专门用于进行自然语言处理任务。生成式AI的原理主要基于深度学习技术和神经网络。其基本原理是通过训练模型来学习从输入到输出的映射关系。这种映射关系通常由一组权重和偏置参数来定义这些参数是通过优化损失函数来获得的。通过调整这些参数模型可以逐渐改进其预测和生成结果的能力。生成式AI的优点在于它可以高效地生成大量有意义的内容比如文章、图像、音频等。此外它还可以根据用户的个性化需求生成符合用户兴趣和需求的内容。但是生成式AI也存在一些缺点比如它可能会出现语法错误、语义错误等问题而且它生成的内容可能缺乏创新性和独特性。7、大语言模型是什么公式大模型 海量数据 深度学习算法 超强算力数据是训练原材料深度学习算法是计算法则算力是硬件计算力大模型是预测模型。大语言模型里面的“大”字说明模型的参数量非常大可能有数十亿甚至到万亿个而且训练过程中也需要海量文本数据集所以能更好的理解自然语言以及生成高质量的文本。大语言模型的例子有非常多比如国外的GPT、LLaMA国内的ERNIE、ChatGLM等可以进行文本的理解和生成。补充Token是个标记是指将输入文本分解为更小的单位例如单词、字母或字符。在自然语言处理中将文本分解为标记有助于模型理解语义和语法结构。当一个Prompt被发送给GPT时它会被分解成多个Token这个过程被称为Tokenier。一般情况下对于英文单词四个字符表示一个标记Token。对于ChatGPT3.5来说它最开始支持的Token最大值是4096。所有大语言模型都是生成式AI不是所有的生成式AI都是大语言模型而所有的大语言模型是否都是生成式AI这也存在些许争议。生成图像的扩散模型如Sora就不是大语言模型它并不输出文本。因为有些大元模型由于其架构特点不适合进行文本生成。举例谷歌的BERT就是一个例子它的参数量和训练数据很大属于大语言模型。应用方面BERT理解上下文的能力很强因此被谷歌用在搜索上用来提高搜索排名和信息摘录的准确性。它也被用于情感分析、文本分类等任务。但同时其不擅长文本生成。特别是连贯的常文本生成所以普遍认为此类模型不属于生成式AI的范畴。大语言模型LLM到底是个啥2022年10月30日OpenAI发布ChatGPT一跃成为当下最快达到100万用户的线上产品也带动大语言模型成为了当下热点更多AI聊天助手如雨后春笋一般出现在大家的视野里。那大语言模型干什么了大语言模型也叫LLM 是用于做自然语言相关任务的深度学习模型可以模型一些文本内容输入它能返回相应的输出完成的具体任务可以是生成、分类、总结、改写等。大语言模型首先需要通过大量文本进行无监督学习。大模型LLM的“大”是什么含义大模型的大指的不仅仅是训练数据巨大而是参数数量巨大。参数是模型内部的变量可以理解为是模型在训练过程中学到的知识。参数决定了模型如何对输入数据做出反应从而决定模型的行为。在过去的语言模型研究中发现用更多的数据和算力来训练具有更多参数的模型很多时候能带来更好的模型表现。这就需要AI学习。如今语言模型的参数数量可能是曾经的数万倍甚至数百万倍。以Open AI的第一个大模型GPT1为例它有1.17亿个参数到了GPT2参数有15亿个参数而这GPT3参数又增长到了1750亿个。这样大模型不像小模型那样局限于单项或某几项任务而是具有更加广泛的能力。比如在这之前我们可能要训练单独的模型分别去做总结、分类、提取等等任务但现在一个大模型就可以搞定这一切。像GPT Cloud、文心一言、通义千问等AI聊天助手都是基于大语言模型的应用。8、LLM核心技术到底是什么大语言模型公众认知其技术发展里程碑其实要回溯到2017年6月谷歌团队发表论文《Attention is all you need》提出了transformer架构至此自然语言处理的发展方向被革命性的颠覆了。随后出现了一系列基于transformer架构的模型2018年OpenAI发布GPT1.0谷歌发布BERT2019年OpenAI发布了GPT2.0百度发布ERNIE1.0等。所以大语言模型的发展早就如火如荼了。9、为什么Transformer模型能一统江湖GPT直接向公众开放而且能让用户在网页上用对话的方式进行交互体验很流畅丝滑大众的目光才被GPT吸引过去全称是Generative Pre-trained Transformer生成式预训练Transformer是其中的关键。所以要了解大语言模型必须搞懂Transformer。在Transformer架构被提出之前语言模型的主流架构主要是循环神经网络RNN其按照顺序逐字处理每一步输出取决于先前的隐藏状态和当前的输入要等上一个步骤完成后才能进行当前的计算。因此无法完成并行计算训练效率低而且RNN不擅长处理长序列因为难以捕捉到长距离依赖性的语义关系。接下来为了捕捉到长距离依赖性也出现了RNN的改良版本就是LSTM长短期记忆网络但是这也并没有解决传统并行计算的问题而且在处理非常长的序列时也依然受到限制。最后Transformer腾空出世了他有能力学习输入序列里所有词的相关性和上下文不会受到短时记忆的影响。能做到这一点的关键在于Transformer的自注意力机制。也正如论文标题所说Attention is all you need,注意力就是你所需要的一切。Transformer的自注意力机制是干什么的简单来说Transformer在处理每个词的时候不仅会注意这个词本身以及它附近的词还会去注意输入序列里所有其他的词然后其余每个词不一样的注意力权重。权重是模型在训练过程中通过大量文本逐渐学习到因此Transformer有能力知道当前这个词和其他词之间的相关性有多强然后去专注于输入里真正重要的部分。即使两个词的位置隔得很远Transform依然可以捕获他们之间的依赖关系举例给出一个句子使用一些关键词animal和street来描述it到底指代什么题目写出了一些关键词如animalstreet作为提示其中这些给出的关键词就可以看作是key 而整个的文本信息就相当于是query脑子里浮现的答案信息是value默认是street。第一次看到这段文本后脑子里基本上浮现的信息就只有提示这些信息此时key与value street基本是相同的。第二次进行深入理解后脑子里想起来的东西原来越多对query这一个句子提取关键信息tired进行关联这就是注意力作用的过程 通过这个过程我们最终脑子里的value发生了变化变成了animal。总结一下 使用一般注意力机制是使用不同于给定文本的关键词表示它。 而自注意力机制需要用给定文本自身来表达自己也就是说你需要从给定文本中抽取关键词来表述它相当于对文本自身的一次特征提取。10、Transformer背后的黑科技是什么Transformer目标是是通过预测出现概率最高的下一个词来实现文本生成的这种效果有点像搜索引擎的自动补全。每当我们输入一个新的字或词输入框就开始预测后面的文本概率越高的排在越上面。但模型具体到底是如何得到各个词出现的概率呢有两个核心部分组成**编码器Encoder和解码器Decoder**。举例做中文翻英语的任务给编码器输入一句英语解码器返回对应的法语。“我是一个学生”的翻译如何工作的第一步转换为计算机可以计算的向量Token。中文的每个字被理解为是文本的一个基本单位翻译成不同的token。是指将输入文本分解为更小的单位例如单词、字母或字符。在自然语言处理中将文本分解为标记有助于模型理解语义和语法结构。当一个Prompt被发送给GPT时它会被分解成多个Token这个过程被称为Tokenier。短单词可能每个词是一个token长单词可能被拆成多个token。每个token会被用一个整数数字表示这个数字被叫做token ID。这是因为计算机内部是无法储存文字的任何字符最终都得用数字来表示。有了数字表示的输入文本后再把它传入嵌入层。如下是官网提供的Tokenization示意图。第二步Embedding嵌入层。其作用是让每个token都用向量表示向量可以被简单的看为一串数字举例假设把向量长度简化为1-521实际中向量长度可以非常长。**为什么要用一串数字表示token**重要原因是一串数字能表达的含义是大于一个数字的能包含更多语法、语义信息等等。这就好比对人的画像如果只有男人和女人这两个属性太少维度的描述需要增加籍贯身高爱好和专业等维度才能更好的刻画人的特征。多个数字就是多个特征我们就可以进行更多维度的表示特征。嵌入层的向量里面包含了词汇之间语法、语义等关系。向量长度到底可以多长呢在transformer 论文里向量长度是512GPT3里设置为12288可以想象能包含多少信息。第三步位置编码。Transformer的一项关键机制是位置编码。在语言里顺序很重要即使句子里包含的字都是一样的但顺序不一样也能导致意思大相迳庭。这是为什么自然语言处理领域会用序列这个词因为它表示一系列按照特定顺序排序的元素。前面提到RNN和人类阅读文本一样对输入序列同样是按顺序依次处理这就造成了训练速度的瓶颈因为只能串行没办法并行也就是没法同时去学习所有信息。Transformer把词输入给神经网络前除了会先对词进行嵌入转换成向量也就是把词用一串数字表示它会把每个词在句子中的位置也各用一串数字表示添加到输入序列的表示中然后把这个结果给神经网络模型既可以理解每个词的意义又能够捕获词在句子中的位置。从而理解不同词之间的顺序关系。借助位置编码可以不按顺序输入给Transformer模型可以同时处理输入序列里的所有位置而不需要像RNN那样依次处理。那么在计算时每个输出都可以独立的计算不需要等待其他位置的计算结果这大大提高了训练速度。训练速度一快训练出巨大的模型也不是这么难了。位置编码就是把表示各个词在文本里顺序的向量和上一步得到词向量相加然后把得到的结果传给编码器。这样做的意义是模型既可以理解每个词的意义又能够捕捉词在句子中的位置从而理解不同词之间的顺序关系。第四步编码器。它的主要任务是把输入转换成一种更抽象的表示形式这个表示形式也是向量表示的一串数字里面既保留了输入文本的词汇信息和顺序关系也捕捉了语法语义上的关键特征。捕捉关键特征的核心是编码器的自注意力机制。模型在处理每个词的时候不仅会关注这个词本身和它附近的词还会关注序列中所有其他词。正如transformer论文标题所说自注意力机制通过计算每对词之间的相关性来决定注意力权重。实际上执行中Transformer使用了多头注意力机制也就是编码器不只有一个注意力机制模块每个头都有他自己的注意力权重用来关注文本里不同特征或方面比如有的关注动词有的关注修饰词有的关注情感有的关注病理实体等等。而且他们之间可以做并行运算也就是计算进展上互不影响。第五步解码器。它是大语言模型生成一个个词的关键。通过前面的编码器我们有了输入序列里各个token的抽象表示可以把它传给解码器。解码器还会先接收一个特殊值这个值表示输出序列的开头。这样做的原因是解码器不仅会把来自编码器的输入序列的抽象表示作为输入还会把之前已经生成的来保持输出的连贯性和上下文相关性。刚开始还没有任何已生成的文本所以把表示开头的特殊值先作为输入。具体的生成过程仍然是要经过多个步骤。首先和编码器一样文本要经过我们已经了解过的嵌入层和位置编码然后被输入进多头自注意力层但它和编码器里的多头自注意力层却不一样。当编码器在处理各个词的时候他会关注输入序列里所有其他词但解码器中自注意力机制只会关注这个词和它前面的其他词后面的词要被遮住而不去关注。这样做是为了确保解码器生成文本时遵循正确的时间顺序不能先让他偷看后面的词在预测下一个词时只是用前面的词作为上下文。这种类型的多头注意力机制被叫做带掩码的多头注意力机制。另外的一个注意力机制会捕捉编码器的输出和解码器即将生成的输出之间的对应关系从而将原始输入序列的信息融合到输出序列的生成过程中。解码器里的前馈神经网络作用和编码器里的类似也是通过额外的计算来增强模型的表达能力。最后和编码器一样解码器同样是多个堆叠到一起的这可以增加模型的性能有助于处理复杂的输入输出关系。解码器的最后阶段包含了一个线性和一个softmax层他们加一块的作用是把解码器输出的表示转化为词汇表的概率分布这个词汇表的概率分布代表下一个次被生成token的概率一般来说模型会选择概率最高的token作为下一个输出。因此解码器就是预测下一个输出的token就像GPT的功能类似。Transformer演变了哪些成功的模型第一个是仅编码器模型也叫自编码器模型比如BERT让模型猜文本里被遮出的词是什么情感分析让模型判断文本情感是积极还是消极。目标是理解语言的任务。第二个是仅解码器模型也叫自回归模型如GPT2GPT3,通过预测下一个词来预测文本生成。目标文本生成。第三个是编码器和解码器模型也叫序列到序列模型比如T5BART一个序列转换为另外一个序列目标翻译总结。总之各个模块总结如下注意力层使用多头注意力Multi-Head Attention机制整合上下文语义它使得序列中任意两个单词之间的依赖关系可以直接被建模而不基于传统的循环结构从而更好地解决文本的长程依赖。位置感知前馈层Position-wise FFN通过全连接层对输入文本序列中的每个单词表示进行更复杂的变换。残差连接对应图中的Add 部分。它是一条分别作用在上述两个子层当中的直连通路被用于连接它们的输入与输出。从而使得信息流动更加高效有利于模型的优化。层归一化对应图中的Norm 部分。作用于上述两个子层的输出表示序列中对表示序列进行层归一化操作同样起到稳定优化的作用。最后近期科技圈传来重磅消息行业巨头英特尔宣布大规模裁员2万人传统技术岗位持续萎缩的同时另一番景象却在AI领域上演——AI相关技术岗正开启“疯狂扩招”模式据行业招聘数据显示具备3-5年大模型相关经验的开发者在大厂就能拿到50K×20薪的高薪待遇薪资差距肉眼可见业内资深HR预判不出1年“具备AI项目实战经验”将正式成为技术岗投递的硬性门槛。在行业迭代加速的当下“温水煮青蛙”式的等待只会让自己逐渐被淘汰与其被动应对不如主动出击抢先掌握AI大模型核心原理落地应用技术项目实操经验借行业风口实现职业翻盘深知技术人入门大模型时容易走弯路我特意整理了一套全网最全最细的大模型零基础学习礼包涵盖入门思维导图、经典书籍手册、从入门到进阶的实战视频、可直接运行的项目源码等核心内容。这份资料无需付费免费分享给所有想入局AI大模型的朋友扫码免费领取全部内容部分资料展示1、 AI大模型学习路线图2、 全套AI大模型应用开发视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 大模型学习书籍文档4、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、大模型大厂面试真题整理了百度、阿里、字节等企业近三年的AI大模型岗位面试题涵盖基础理论、技术实操、项目经验等维度每道题都配有详细解析和答题思路帮你针对性提升面试竞争力。6、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。扫码免费领取全部内容这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】