零基础认识大语言模型工作原理

发布时间：2026/6/28 3:32:11

什么是文字接龙如果要用一句话概括大语言模型的本质那就是它是一个超级强大的“文字接龙”游戏玩家。文字接龙是一种简单又有趣的游戏你写一个字、一个词或者一句话下一步接着续写下去尽量让语句合理连贯。举个例子(1) 玩家 A: “今天天气真好”(2) 玩家 B: “好想去公园散步”(3) 玩家 C: “步伐轻快心情愉悦。”每个人都是根据前面内容进行接龙完成文字接龙游戏须具备两个前提(1) 玩家掌握基本的文法知识比如熟悉中文语法、英文语法等不至于在接龙过程中出现病句。(2) 玩家掌握基本常识熟悉世界知识比如知道“天气好意味着适合外出散步”否则各个玩家完全不同频游戏无法进行。大语言模型其实就是在做类似的“文字接龙”游戏只不过规模大了无数倍不限接龙主题、不限接龙语言、不限接龙领域给什么接什么输入你给大模型一段文字Prompt/提示词。任务它预测下一个最可能出现的字、词或符号是什么。输出把预测的字、词或符号加到原文后面作为输入继续预测再下一个直到出现结束符号。如此循环往复一个字一个字地蹦出来最终形成了一篇通顺的文章、一段代码或一个故事。它并不真正“理解”输出文字的含义它只是精通统计规律知道在当前语境下即Context哪些字、词、符号组合在一起最“像”人类说的话。2.大模型如何做文字接龙既然大模型是在做接龙那它是如何具体操作的呢这里有几个关键概念Token词元和概率分布等。(1)什么是 Token大模型并不是以“汉字”或“单词”作为最小单位来做文字接龙的而是以另外一种叫做Token的结构。Token与汉字、单词、符号等并没有严格意义上的一对一关系。在英文中一个Token 可能是一个完整的单词如apple也可能是词根如unchanged中的前缀un甚至是部分字母。在中文里一个Token通常对应一个汉字如“你”也可能是常见的多字词如“助手”、“是多少”甚至一个汉字占2个Token。对于符号而言可以与后面单词一起组成一个Token如Python代码中常见的__init可以是一个独立的Token也可以多个符号一起组成一个Token如Python代码中的注释####可以是一个单独的Token。还有一些特殊标记也被当做独立的Token如句子开始句子结束。总之在大模型领域中Token是一种全新的结构与我们常见的字、词、符号没有对应关系。为什么要这么分因为这样能更高效地压缩信息任何种类的语言文本可以被灵活组合拆分让模型处理更长、更复杂的序列。你可以把Token理解为大模型眼中的“最小语义积木”不同大模型的Token划分规则并不相同比如LLama3中一共包含128000种Token代表它每次预测输出可以有128000种可能。对于ChatGPT大模型OpenAI提供一个在线工具可以查看它是如何划分Token的https://platform.openai.com/tokenizer任意输入一段文本工具可以输出对应Token数量以及用颜色区分每个Token上面这段文本在GPT-5.X中被划分成88个Tokens进行处理每个Token已用颜色区分。(2)什么是Vocabulary不同大模型的Token划分规则并不相同所以每种大模型支持输出的Token种类总数也不相同。LLama3能够输出128000种TokenQwen2.5能够输出256000种Token我们把模型能够输出的Token种类集合叫做词表Vocabulary。如果对词表中的每个Token进行顺序编号从零开始LLama3的词表Token IDs取值范围为0~127999。在GPT-5.X中刚才那段文本被划分成了88个Tokens进行处理那么对应的Token IDs为点击界面左下角Token IDs按钮我们可以看到在GPT-5.X中这段文本开头的‘Video’作为一个独立的Token它在词表中的ID为11046即排在11047位ID从零开始。文本结尾‘).’被当做一个独立的Token它在词表中的ID为741排在742位。下面是词表示意图蓝底为Token IDs白底为对应Tokens词表除了反映大模型能够输出哪些Token之外还能辅助大模型对输入进行预处理。比如我们要给模型输入“水的沸点是多少”时由于大模型本身无法直接处理这些Unicode字符所以需要我们先将这些文本拆分成Tokens然后参考词表将它们映射成Token IDs最后再送入大模型示意图如下注意是示意图实际大模型可能并非输出类似答案总之词表对于大模型的输入和输出环节都至关重要。输入环节要参考词表输出环节也要参考词表。那么大模型的输出格式是什么呢每次是直接输出Token ID然后我们再做一次后处理根据词表将Token ID映射成具体的Token吗答案是否定的。要了解大模型的输出格式我们需要先理解概率分布这个概念。(3)什么是概率分布假如要设计一种算法或者系统根据各种条件阈值负责从有限集合范围内选择一个最符合预期的目标你会如何设计这种系统的输出在深度学习领域中这种任务一般被称为“分类”任务有限集合的大小即称作“分类数”。对于分类任务深度学习算法一般输出一个概率分布一组概率值通常用一个数组表示数组的大小即为分类数这些概率之和为一概率值越大、代表该分类命中的可能性越高。如上图所示分类1深蓝色部分的概率值最大0.59因此根据概率分布的结果来看分类1命中可能性最高因此针对这个四分类任务算法本次预测的结果是分类1。对CV计算机视觉熟悉的童鞋可能已经看出来了CV中的图像分类是一种典型的“分类”任务在基于深度学习的CV领域中大部分用于图像分类的神经网络算法最终输出都是一个概率分布即经过Softmax函数处理过后的概率向量向量各维度概率之和为一图片分类网络可以参考什么是神经网络 – videopipe.cool。如果该分类算法用于ImageNet任务那么它的分类数为1000输出概率向量维度也为1000。下面是一个三分类的图像分类任务猫/狗/鸡再回头来看大模型做文字接龙的这个任务它本质上是一个Token分类任务。特别之处在于(1) 目标分类数非常之大Llama3的词表大小为128000所以分类数为128000。因此大模型每次都要输出一个超级大的概率向量向量维度大小为128000。(2) 用于Token分类的神经网络结构比较特殊目前主流大模型均采用Transformer结构或其变种。同时由于目标分类数很大意味着是一个复杂任务神经网络包含超级大规模的参数量通常需要用B十亿为单位来衡量而传统小模型一般用M百万作为参数单位。上图显示将“水的沸点是多少”输入到Llama3模型中模型单次推理输出第一个Token的结果示意图。它会输出一个超级大的概率向量向量维度大小为Llama3词表大小即128000代表模型接龙输出Token的概率分布。那么最终我们如何获取最终输出的Token呢是直接取概率值最大的Token ID再映射回Token吗直观上判断确实可以这样去做但是为了提升大模型输出内容的多样性和灵活性对于同一个输入大模型每次推理输出不尽相同实际并不是直接选取概率值最大的Token ID映射回Token而是根据事先配置选取概率值从大到小前Top K个Token IDs再根据一定规则“摇骰子”从中选取最终要输出的Token。正是因为这个机制我们在使用豆包、ChatGPT等语言大模型的时候对于同一个问题每次回答都不一样。我们如果规定K为1那么对于同一个输入大模型每次的回答都相同摇骰子失效。注意由于大模型经过了大量数据进行Pre-Train预训练因此我们选取的前Top K个Token IDs从统计经验规律来看都可以当做正确Token被大模型输出最终的输出内容看上去也都是合理连贯的。其实这很好理解任何文字接龙本身并没有唯一答案“摇骰子”这个动作正好实现了这个效果。大模型每次推理输出一个Token将每次输出的Token接在原来输入的尾部再继续作为模型的输入可以源源不断地得到连续的Tokens直到模型输出【结束】标记。最后我们将所有的Tokens拼接在一起作为模型的最终输出可以是一句话、一首诗、甚至是一篇文章。(4)接龙的内部流程当你向大模型输入一段文本时支持各种语言会执行以下步骤词元化根据模型预设词表将文本拆分成单独的Tokens然后再转换成Token IDs序列这一步一般由Tokenizer完成它是一种工具跟大模型本身无关。

【php】老旧PHP项目（PHP 5.6）本地环境搭建与踩坑记录

6.6 缺少MDB2_Driver_sqlsrv6.7 数据库连接代码适配sqlsrv6.8 PEAR依赖路径修复（解决include路径问题）1.项目比较老了，有很多新的php不支持的函数，所以就找了XAMPP里面比较老的版本，版本号5.6.40下载完成后安装2.安装i…

2026/6/28 3:30:50 阅读更多

企业RAG最重要的一步，是给知识划边界

这一篇想讲清楚的，不是参数怎么设，而是系统以后拿什么作为“找答案的单位” 分块（切割）是在给知识划出以后可被调用的边界。很多团队走到这一步时，心里都会有一个困惑。文档已经解析了。资料也进系统了。模型也接上…

2026/6/28 3:30:10 阅读更多

五金工厂怎么线上获客？AI GEO长效抢占工业采购流量

# 全域线上获客破局：告别竞价内卷｜牛橙网络顾佳薇团队实战方案## 导语昆山、温州、永康、佛山四大五金产业带数千家加工、标准件、建筑五金、新能源配件工厂，正在遭遇同质化获客困局。线下五金展会展位费、样品、差旅单次投入动辄数万&#x…

2026/6/28 3:29:10 阅读更多

AI 时代新流量赛道 GEO 来了，取代传统搜索营销已成定局

从电视黄金时段的广告轰炸，到搜索引擎时代的SEO排名大战，再到短视频平台的种草带货，过去四十年品牌打广告的逻辑，始终跟着用户的信息获取阵地走。而现在，当越来越多人的消费决策，直接在AI对话框里完成&…

2026/6/28 5:00:30 阅读更多

AI Agent 工程师(一)

一、AI Agent 工程师是什么？ AI Agent 工程师是大模型时代的新型开发岗位，核心是研发具备自主感知、推理规划、工具调用、环境交互与自我迭代能力的智能体（Agent）系统。与传统岗位的核心区别：不同于 AI 算法工程师：不聚焦模型训练与微调，而是以现成大模型为 “推理大…

2026/6/28 4:59:29 阅读更多

人工智能专业术语详解（Z）

在以字母Z开头的术语中，人工智能领域呈现出两个具有深远方法论意义的核心概念，它们分别从模型泛化能力的极限边界和数据预处理的基石层面定义了智能系统的学习与适应能力。 🔮 Zero-shot Learning（零样本学习）&#xf…

2026/6/28 4:59:09 阅读更多

你有多久没好好照顾自己的情绪了？这款AI应用像一个温柔的朋友

你有多久没好好照顾自己的情绪了？这款AI应用像一个温柔的朋友我们生活在一个"情绪文盲"的时代——我们学了那么多知识，却从来没学过如何与自己的情绪相处。本文将深度解析「心晴 - AI情绪日记」这款应用，探讨AI如何成为我们的情绪陪…

2026/6/28 4:56:48 阅读更多

AI应用岗都是先混进去再说的

文章指出，AI应用开发行业的入门并不需要掌握所有技能。大多数人通过展示基础能力和发展潜力成功获得工作机会。核心策略是先获得入场券，让公司相信你能快速产出成果，而后续技能可以通过工作实践逐步提升，这样完全能够跟上行业发展…

2026/6/28 4:56:08 阅读更多

AzerothCore学习笔记·事件02：game_event 叠加层——节日活动是怎么“叠“上去的

每年冬天，暴风城和奥格瑞玛会冒出圣诞树、雪人、还有卖节日物品的 NPC。这些角色平时不存在——它们不是"藏"在城里等触发，而是真的从数据库里凭空生成。节日结束，它们又消失。这就是 game_event 系统做的事：在已有的游…

2026/6/28 4:54:47 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:00:03 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/6/28 1:01:08 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/6/28 1:02:09 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

2026/6/28 0:00:03 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/6/28 1:01:08 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/6/28 1:02:09 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/27 12:47:04 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/27 13:25:14 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/27 13:25:16 阅读更多

相关文章

【php】老旧PHP项目（PHP 5.6）本地环境搭建与踩坑记录

企业RAG最重要的一步，是给知识划边界

五金工厂怎么线上获客？AI GEO长效抢占工业采购流量

AI 时代新流量赛道 GEO 来了，取代传统搜索营销已成定局

AI Agent 工程师(一)

人工智能专业术语详解（Z）

你有多久没好好照顾自己的情绪了？这款AI应用像一个温柔的朋友

AI应用岗都是先混进去再说的

AzerothCore学习笔记·事件02：game_event 叠加层——节日活动是怎么“叠“上去的

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因