2017年的某个夏天Google内部一群搞翻译的工程师发了一篇论文。标题很狂叫《Attention Is All You Need》。意思很明确我们把RNN彻底扔了只用注意力机制翻译效果反而更好。这篇论文后来被叫做Transformers。它在当时只是一篇机器翻译论文。但回头看它更像是大语言模型时代的操作系统——所有后来发生的故事都在这个框架上展开。从2017到今天不过八年。八年间这个行业经历了从学术论文到万亿美元市场的跃迁经历了OpenAI从无名小卒到顶流明星的逆袭经历了开源与闭源的路线之争经历了从“能说话”到“能办事”的能力跃迁。这篇文章想做一件事把大语言模型这条线从一堆散乱的名词整理成一条清楚的主线。不是技术名词年表而是讲清楚那几次关键转向——模型怎么从“预测下一个词”走到通用智能入口规模为什么成了核心变量ChatGPT到底改变了什么开源模型为什么突然追上来推理模型又意味着什么。我们开始。一、架构的胜利Transformers来了要理解后来发生的一切得先回到2017年理解Transformers为什么重要。那一年Google翻译已经在用神经网络了但用的是RNN——一种按顺序处理文本的模型。读一句话得从左到右一个词一个词滚第一遍记住我第二遍合并喜欢第三遍合并北京一路滚到烤鸭。这个过程有两个毛病第一串行。 一个词没处理完下一个词动不了。GPU有几千个计算核心但RNN只能用到其中一个。第二信号衰减。 等滚到烤鸭时我这个词已经被压缩了五六次早就模糊了。Google翻译组有八个人决定换思路。2017年6月他们发表了那篇后来被称为原子弹级论文的《Attention Is All You Need》。核心想法很简单不要串行了让每个词同时看所有词。怎么做到用注意力机制。举个例子我喜欢北京的烤鸭这句话里烤鸭两个字单独看就是烤的鸭子但在这句话里它特指北京烤鸭。模型怎么知道让烤鸭给每个词打分离北京最近给高分离喜欢中等离我和的几乎为零。按这个比例把所有词的信息吸收过来烤鸭这个词的向量就被改写了——它不再只是烤的鸭子而是这句话里那只我喜欢的北京烤鸭。这就是注意力。六个词同时各做一遍一轮跑完每个词都拿到了在这句话里的具体含义。没有串行没有压缩没有衰减。而且这六个词的计算可以打包成一次大矩阵乘法扔给GPU并行完成。这就是Attention Is All You Need的意思把RNN的循环结构整个扔掉问题反而都解决了。二、两条路线BERT和GPT的分叉Transformers最初是为翻译设计的分两半encoder负责读原文decoder负责写译文。但2018年之后大家发现这两半可以拆开各走各的路。Google走的是encoder路线做出了BERT。BERT的全称是Bidirectional Encoder Representations from Transformers。重点在两个词encoder——只用Transformer的左边bidirectional——读一个词时可以同时看左边和右边。BERT的训练方式像完形填空。给一段话随机遮住一些词让模型猜被遮住的是什么。比如我喜欢北京的[MASK]模型要从我、喜欢、北京、的这些上下文里猜出烤鸭。BERT解决的是NLP里最值钱的问题读懂一段话。分类、问答、实体识别、语义匹配——这些任务不需要模型生成新文本更需要模型把整段话看明白。BERT出来之后学术界主流认为这条路是对的理解和生成是两件事应该分开设计。BERT负责读懂GPT负责续写。OpenAI走的是decoder路线做出了GPT。GPT的全称是Generative Pre-trained Transformer。意思很直接先用海量文本训练一个会续写的Transformer再看这个续写能力能不能迁移到各种任务上。训练目标很简单给你前N个词猜第N1个词。这个目标比BERT的完形填空难。BERT两边都给你是选择题GPT只能看左边猜右边是开放题。但OpenAI赌的是能把开放题做好做选择题是顺带的事。2018年6月GPT-1发布1.17亿参数。2019年2月GPT-2发布15亿参数。从benchmark看GPT-2打不过同期BERT。2018年10月BERT一出来就把GPT-1压过去了。Facebook的RoBERTa优化版BERT只有3.55亿参数在GLUE、SQuAD这些榜单上继续压着GPT-2。参数量大四倍分数反而更低。但GPT-2有两件事让OpenAI看到另一种可能第一文本生成质量肉眼可见地强。 能写出连贯的长段落风格切换自如能以假乱真。第二它展示了一个模型能做很多事的迹象。 没有专门训练却在问答、摘要、翻译上表现出一定能力。这说明一件事BERT那种每个任务单独微调的路线可能不是终点。预测下一个词这个简单目标如果规模够大可能会长出通用能力。OpenAI内部有人想赌这件事。三、GPT-3的赌注大力出奇迹OpenAI内部有一群人想赌一件跟主流认知不同的事如果模型大到上千亿参数光猜下一个词这一招会不会自己长出新能力这个赌注的核心信徒是首席科学家Ilya Sutskever。他从AlexNet那个年代就坚信深度学习的进步主要靠规模算法创新次要。技术上给这个赌注提供依据的是2020年1月Jared Kaplan等人发表的《Scaling Laws for Neural Language Models》。这篇论文证明模型loss会随参数、数据、算力按可预测的幂律下降。换句话说多大算力换多少能力事前可以算出来。这给了OpenAI押1750亿参数这个具体数字的底气。但工程上不是一步到位的。GPT-1几张GPU就够GPT-2开始吃力GPT-3要冲到1750亿参数之前那套训练工具链根本顶不住。算一笔账1750亿参数光存权重就要约350GB用16位浮点加上反向传播的中间结果和优化器状态实际需要2到3TB内存。当时NVIDIA最强的V100每张才32GB显存单卡根本装不下。解决它需要三套工程突破第一关模型放不下一张卡。 NVIDIA 2019年9月发的Megatron-LM给出答案张量并行。把单个权重矩阵切成N份N张GPU各算一块再汇总。像一张大试卷撕成4份让4个人同时写。第二关层数堆起来还是装不下。 Google 2018年底发的GPipe给出答案流水线并行。不同层放到不同GPU数据像流水线一样从第一张卡流到最后一张。第三关优化器状态吃天量内存。 微软2019年发的ZeRO给出答案优化器状态、梯度、参数全部按GPU数量切开每张卡只存1/N需要时临时通信交换。N张卡的显存合起来变成一个虚拟大显存。三招组合起来叫3D并行。少任何一个都不行光张量并行96层叠不下光流水线单层装不下不上ZeRO光优化器状态就溢出。硬件这边微软在Azure上搭了一台约一万张V100 GPU的超级计算机2020年5月公布是当时全球前五的超算之一。2020年5月28日OpenAI发表GPT-3。四、范式转移in-context learningGPT-3的核心发现一句话讲完模型大到一定程度新能力会自己冒出来。它展示的最关键能力叫in-context learning上下文学习。模型不必为每个任务专门微调只要在prompt里给两三个示范它就能照着做这个任务。给两三个示范就照做的叫few-shot什么示范都不给直接做的叫zero-shot。效果有多炸论文里几个结果让人下巴掉下来GPT-3在SuperGLUE、TriviaQA这些benchmark上的few-shot分数跟专门fine-tune过的模型差不多甚至更好。它能写出像样的新闻文章人类读者区分真假的识别率只比扔硬币高一点。它能从自然语言描述生成简单代码、做基础算术、回答一些没见过的常识题。这种能力在小模型里完全看不到。 GPT-215亿参数也能续写但给它两三个示范它学不会照做。GPT-31750亿参数烧到那个临界值新行为整个浮上来。这是发生了相变像水烧到100度才沸腾。但更大的影响在工作方式层面。GPT-3触发了整个NLP行业从老范式到新范式的整体转移。老范式2018-2020 预训练一个模型针对每个任务收集标注数据微调。每个任务单独标数据、单独微调、单独部署。一家公司想做客服分类自动翻译文档摘要内容审核就得养四个不同的模型。新范式 模型不为任何具体任务训练只学一件事预测下一个词。要它做翻译就写prompt把下面英文翻成中文Hello world →要它做情感分析就写判断这段评论的情绪是正面还是负面[评论] →。从训练时绑定任务到使用时绑定任务。后来Stanford HAI在2021年专门发了一篇论文给这套范式命名叫foundation model基础模型。BERT那派理解和生成必须分开的理论判断被证伪了。从GPT-3之后所有前沿大模型——GPT、Claude、Gemini、LLaMA、DeepSeek、Qwen——都是decoder-only Transformer的后代。当然BERT没有死。它在产业界仍然是分类、检索、向量embedding这些窄场景的主力。Google搜索后端、文档分类系统、电商推荐里的语义匹配今天还在跑BERT派的模型。它们小、快、便宜专门做一件事比叫一个千亿大模型来做划算得多。但前沿AI这条赛道的主线从GPT-3起彻底换了。五、能力不等于好用RLHF登场GPT-3发完OpenAI在2020年6月把它做成商业API上线。很贵起步价0.06美元1000 token。一年里上百家公司围着这个API做产品Jasper做营销文案AI Dungeon做交互小说Replika做陪伴聊天。但绝大多数尝试很快撞墙。模型什么都会但什么都不听话。 你让它写一份正经报告它会扯到段子上你让它客观回答问题它会编造数据你问它一个敏感话题它会给你一段不合适的回答。最典型的事故是AI Dungeon2020年7月接入GPT-3后体验质变但很快出现大量不可控生成露骨、暴力、儿童内容。OpenAI在2021年4月威胁切断API访问逼着AI Dungeon加各种过滤器社区随后流失大半。这暴露了一个此前没被认真理论化的鸿沟模型知道什么和模型愿意做什么之间隔着一层。 光把模型变大不够必须再做一层对齐。圈里管这个叫alignment problem。GPT-3之后的两年多OpenAI主要做的事就是把这个对齐层补上。转折点是2022年3月OpenAI发表InstructGPT论文给出了RLHFReinforcement Learning from Human Feedback的标准三段论第一步监督微调SFT。 雇40多个标注员针对几万条真实用户prompt亲手写出理想回答。拿这批数据微调GPT-3。模型第一次学到什么样的回答符合期待。第二步训练奖励模型。 让微调过的模型对同一个prompt生成4到9个不同回答标注员从好到坏排序。用这批排序数据训练一个独立的奖励模型它不给答案打分只预测哪个回答更受人喜欢。第三步强化学习。 让模型一遍遍生成回答、被奖励模型打分、根据分数调整自己。算法叫PPOProximal Policy Optimization。实验结果很硬13亿参数的InstructGPT在人类偏好打分上击败了1750亿参数的原版GPT-3参数差了一百三十多倍。这件事对整个行业冲击巨大让模型变好用跟把模型变大是两条不同的路。InstructGPT上线8个月后2022年11月30日OpenAI发布ChatGPT。背后的模型叫GPT-3.5是InstructGPT路线训出来的进一步版本先在GPT-3基础上做了一轮代码增强训练再做完整的RLHF。ChatGPT一发就在整个社会爆火。5天破百万用户2个月破1亿月活刷新了所有消费产品的增长记录。让ChatGPT从会续写变成能对话的正是InstructGPT那一套RLHF。六、ChatGPT之后的百花齐放ChatGPT在2022年11月点燃了整个行业。2023到2024这两年成了大语言模型的爆发期闭源前沿玩家加码追赶开源浪潮起来中国玩家集体下场整个生态从OpenAI一家独大变成多极混战。Anthropic另一条对齐路线Anthropic的故事得从OpenAI内部的一次分裂说起。2020年底到2021年初OpenAI研究部门一批人先后离职包括研究VP Dario Amodei、运营VP Daniela Amodei兄妹加上GPT-3论文一作Tom Brown、Scaling Laws论文一作Jared Kaplan等核心人员。他们2021年1月在旧金山成立了Anthropic。公开说法是对OpenAI的方向有不同看法。实际矛盾大致是2019年OpenAI接受微软投资改成利润上限公司结构让原本非盈利的初心变了味2020年GPT-3商业化太快安全研究分到的资源不够。Anthropic的代表作是Constitutional AICAI2022年12月发表。核心想法是写一套明文原则宪法让模型自己用这套原则评估、批评、改写自己的回答再用这些改写后的数据训练自己。把RLHF里人类反馈那一环换成AI自反馈规模化的瓶颈一下消除了。CAI对Anthropic尤其重要。他们当时没有OpenAI那种亿级用户的反馈来源如果死磕RLHF原版方案永远追不上。但要老实说一句早期Claude跟同期OpenAI旗舰模型差距明显。2023年3月Claude 1大致跟ChatGPT一个量级但同月发布的GPT-4是另一个层次。2023年7月Claude 2、11月Claude 2.1提升肉眼可见但仍在GPT-4之下。整个2023年Claude在工程师圈里是小众替代不是主流选择。真正缩到平起平坐是2024年3月的Claude 3系列。 Opus在多项基准上跟GPT-4打平或小幅领先是Anthropic第一次拿出能跟OpenAI旗舰对垒的模型。2024年6月Claude 3.5 Sonnet在代码任务上明显超过GPT-4工程师圈大批人切到Claude。Anthropic用Constitutional AI这条路线追平OpenAI花了大约三年2021创立到2024年3月Claude 3。LLaMA开源浪潮的引爆点Meta在2023年2月发了LLaMA-1参数从7亿到650亿。本来只对学术研究开放但权重在发布一周内被泄漏到4chan整个开源社区瞬间上车。架构上LLaMA跟GPT、Claude没本质区别都是decoder-only Transformer。LLaMA用的几个优化SwiGLU激活、RoPE位置编码、RMSNorm后来被各家普遍采用。真正不同在训练配方参数压小、数据加多。 13B模型喂1万亿token跟GPT-3那种参数大、数据相对少的路线相反。这条路为什么有效我们后面会解释。LLaMA放出来够用但后训练这一头Meta一直比OpenAI/Anthropic弱。所以Llama衍生模型像爆米花一样冒出来Stanford的Alpaca用GPT生成的数据微调伯克利 Vicuna用ChatGPT对话数据微调。这些衍生品技术上违反服务条款但实际很难追查等于借闭源模型的对齐能力训出开源模型的对齐版本。为什么衍生模型偏偏围着LLaMA转因为OpenAI和Anthropic全程闭源GPT-4、Claude在外人手里只是API接口权重拿不到、不能微调、不能本地部署。开源社区想做衍生必须有一个前沿水平开放权重的底子。2023年初这种东西不存在LLaMA是第一个把这两件事同时做到的。2023年7月Meta发LLaMA-2许可证改成商用可用。2024年4月Llama-3发布70B版本基准接近GPT-42024年7月Llama-3.1的405B开源版直接打到当时GPT-4o水平。但LLaMA的高光时刻停在了Llama-3.1。2025年4月发的Llama-4口碑很糟。这段时间DeepSeek V3/R1接管了开源前沿位置Qwen也持续强势LLaMA从开源前沿滑到第二梯队。原因是多方面的首席科学家Yann LeCun公开质疑LLM路线关键研究员流失到Anthropic和xAIMeta内部对是否要赢这场本来动力就不强Meta不靠卖AI赚钱靠社交广告。全球玩家入场ChatGPT之后两年闭源前沿之外的玩家从美中欧三个方向集体入场。美国这边Google反应慢了一拍但没缺席。2023年2月仓促发了Bard效果一般。2023年12月推出Gemini 1.0替换Bard2024年2月推出Gemini 1.5主打百万级上下文窗口2024年12月推出Gemini 2.0。从2024年起Google在多模态和长上下文这两块开始压住OpenAI。马斯克的xAI是后来者2023年7月成立同年11月推出Grok-12024年3月开源权重。走的是社交平台入口实时数据大算力的路线。欧洲方面以Mistral为代表。法国Mistral 2023年5月成立几个月内开源Mistral 7B和Mixtral 8x7B。定位很清晰模型要小、快、便宜能本地部署能进欧洲企业的私有化场景。中国这边反应相当迅速。2023年3月百度文心一言4月阿里通义千问6月智谱ChatGLM-28月字节豆包10月月之暗面Kimi11月零一万物Yi。到2024年备案上线、能对公众提供服务的国产生成式AI大模型接近200个。早期玩家很多真正杀出来的是少数几家。阿里Qwen靠开源和工程完整度进入全球开发者社区。DeepSeek靠V3和R1把成本、MoE、推理能力一起打到海外圈面前。智谱GLM在政企和国产生态里站住位置。Kimi押长上下文。豆包靠App入口和流量规模做产品化。到2025年全球大模型格局基本是中美两极。 美国占闭源前沿OpenAI、Anthropic、Google、xAI各有打法。中国占开源前沿DeepSeek、Qwen、GLM、Yi等模型把开放权重和低成本路线推到全球开发者面前。欧洲有Mistral但总体体量不够。七、两个关键修正Chinchilla和MoE百花齐放发生得这么快背后有两个关键修正撑着。Chinchilla修正了Scaling LawGPT-3出来之后行业的直觉是模型越大越聪明。 大家开始拼参数1750亿、2800亿、万亿参数。问题是参数变大之后如果训练文本没有跟上模型就像一个脑容量很大但书没读够的人潜力没吃满。DeepMind 2022年的Chinchilla论文把这个问题重新算了一遍。结论很直接同样的算力不该只顾着把模型做大也要让模型读足够多的文本。参数和数据要一起涨甚至很多时候少堆一点参数、多喂一点数据效果反而更好。最有说服力的例子是Chinchilla自己。它只有700亿参数比DeepMind之前的Gopher小很多但训练数据多得多。结果这个更小的模型在一堆评测上反而超过了2800亿参数的Gopher也超过了GPT-3。这件事改变了开源模型的打法。开源社区很难一上来就训1750亿参数模型但可以训练一个更小的模型再给它喂足够多、足够干净的数据。LLaMA就是这条路线的标志性成果参数没有夸张到天上去训练数据却吃得很足最后做到小模型打大模型。Chinchilla真正修正的是规模这个词的含义。规模不只是参数规模也包括训练数据规模。MoE大模型怎么变得更便宜MoE全称是Mixture of Experts混合专家。想法很直观一个问题来了不必让所有人一起上只要找最相关的几个专家处理。放到Transformer里decoder里有attention负责看上下文attention后面还有一段前馈网络负责把信息再加工一下。普通模型每次都会动用同一整套网络。MoE把这套网络拆成很多个专家再加一个很小的调度员。每个token进来调度员只挑其中一两个专家来处理。这样做的好处是账面上模型可以很大真正干活的部分却不必每次都全部启动。比如一个模型总共有几千亿参数但处理某个token时只激活其中几十亿参数。总容量变大了推理成本没有跟着等比例变大。这个想法很早就有人做过但长期不好用。难点不在概念在于工程。调度员如果分配不好有的专家忙死有的专家闲着训练就不稳定。专家之间还要互相传数据通信成本也会把收益吃掉。到2023年以后训练框架、GPU通信、低精度训练都成熟了MoE终于稳得住、训得动。Mistral的Mixtral 8×7B是一个重要信号它有八个专家每次只激活两个效果可以压过不少更大的稠密模型。DeepSeek V3把这条路推得更远总参数做到6710亿但每个token只激活370亿左右。把Chinchilla和MoE合起来看逻辑就顺了●Chinchilla告诉我们同样算力下别盲目堆参数要让模型读够数据。●MoE告诉我们模型可以有很大的总容量但每次推理只用一部分。开源社区能在2023到2024年追得这么快背后很大一部分原因就在这里。八、推理模型一个新的Scaling轴2024年9月OpenAI发布o1 preview。这个模型让整个行业意识到一件事Scaling不只是把模型变大、把数据加多还可以在回答阶段花更多算力。过去模型回答问题基本是看到问题就往下生成。推理模型会先花更多时间在内部推演试几条路检查哪里错了再给出最终答案。简单说过去主要是在训练时多花算力把模型训得更强现在是在回答时也多花算力让模型多想一会儿。这为什么重要因为数学、编程、科学题这类任务有明确的对错。模型做对了就奖励做错了就惩罚这个反馈比哪个回答更好干净得多。o1发布后Google在2024年12月放出Gemini 2.0 Flash ThinkingDeepSeek在2025年1月发布R1Anthropic在2025年2月发布Claude 3.7 Sonnet的extended thinkingxAI的Grok-3也加入了Think和Big Brain这类推理模式。推理模型真正改变的是算力花钱的位置。过去主要把钱花在训练阶段训好之后尽量便宜地服务用户。现在多了一种买法每次遇到难题就临时多买一点思考时间。大力出奇迹没有消失只是从训练时大力扩展到了回答时也大力。九、系统化模型进入真实工作流到这里故事的重心开始换地方。前面讲的主要是模型怎么变强。架构、预训练、后训练、开源、MoE、推理时算力所有努力都围着模型本身转。2025年之后另一个问题变得更急模型已经够强了它到底能替人干什么RAG模型接外部知识库RAG不算最新热点源头是2020年Facebook AI的Retrieval-Augmented Generation论文。真正变成工程标配是ChatGPT火了之后企业开始把大模型接进自己的文档、知识库和数据库。RAG的思路很简单先检索再生成。 用户问一个问题系统先去外部资料里找相关片段然后把这些片段塞进模型上下文让模型基于材料回答。这解决的是LLM最要命的几个现实问题模型训练完之后知识就固定在参数里没法知道公司昨天刚更新的政策它还会编造回答完也说不清依据来自哪里。RAG把外部材料拉进来至少让回答有出处、有上下文也更容易更新。Tool Calling和MCP模型开始调用系统2023年6月OpenAI在API里加入function calling意思是开发者可以把外部函数描述给模型。模型不再只能生成一段自然语言而是可以输出一段结构化参数告诉系统现在该查订单现在该调退款接口现在该发一封邮件。这件事把LLM从聊天框里拉了出来。过去模型的输出就是文字文字给人看。tool calling之后模型的输出可以变成软件系统的输入直接触发数据库查询、API调用、代码执行和业务流程。Anthropic在2024年11月开源MCPModel Context Protocol想解决的是工具调用乱的问题。MCP可以理解成AI应用和外部系统之间的一套通用插头文档库、GitHub、数据库、Slack、浏览器都按同一套协议把资源和工具暴露出来模型客户端按同一套方式接入。Long Context和Memory模型带着历史工作早期模型的context window只有几千token一篇长论文、一份合同、一个稍微复杂的代码库很快就塞不进去。用户只好把材料切碎一段段问模型也容易前面刚读过后面就忘了。2024年长上下文变成一条明确赛道。Google在Gemini 1.5 Pro里把上下文窗口推到100万tokenClaude、GPT、Qwen、Kimi也都在往长上下文走。长上下文解决的是这一轮能读多少。Memory解决的是跨会话能不能记住。2024年OpenAI开始给ChatGPT做memory让它记住用户偏好、写作格式、工作背景。到2025年ChatGPT的memory进一步扩展可以参考过去更多聊天历史。这对个人助理和Agent很关键。一个长期帮你写文章的模型如果记得你不喜欢什么句式、常写哪些主题、引用格式怎么放下一次就不用从零交代。把RAG、长上下文和memory放在一起看LLM正在补三种记忆能力●RAG让模型查外部资料●长上下文让模型一次读更多现场材料●memory让模型跨任务记住长期背景Agent要稳定工作离不开这三层。十、从模型竞赛到应用竞赛2025年之后竞争重心开始从模型竞赛移到应用竞赛。基础模型公司不再满足于只卖APISaaS公司也不再满足于只加一个AI按钮。大家都在往同一个方向挤把模型接进真实工作流让它能调用工具、读写数据、执行动作、交付结果。Agent的产品化先把套壳说清楚。早期很多AI创业公司做的就是这个底层直接调用OpenAI/Anthropic/Gemini的API外面包一层界面、提示词模板和收费页。换个垂直场景写几组prompt就说自己是AI写作、AI客服、AI销售。这种套壳更接近AI-powered SaaS未必是Agent。它本质上还是传统软件只是在某个环节调用模型生成一段话。真正的Agent要多几层东西它要能理解目标拆出步骤选择工具调用API读取结果发现错误再决定下一步。它还要接权限、日志、审批、记忆、数据源和评测系统。模型只是脑子Agent产品还需要手、脚、眼睛、记录本和刹车。2025年之后变化更明显。过去很多创业公司在应用层套壳现在基础模型公司直接下场做应用层。OpenAI先做Operator让模型用浏览器点网页后来又把Operator、Deep Research、代码执行整合进ChatGPT agent。Anthropic把Claude Code、computer use、MCP一路往工具和开发者工作流里推。这里的压力很现实基础模型只卖token容易变成云服务里的算力商品。应用层才离用户预算更近也离企业流程更近。模型公司自己做Agent本质上是在往SaaS和企业软件的地盘走。Coding Agent最先跑通Coding Agent最先成熟原因很直接代码场景天然适合Agent。它有文件系统、终端、测试、编译器、Git、issue、CI。模型改完代码之后系统可以立刻告诉它对了还是错了。这和很多办公场景不一样——写一封销售邮件好不好往往要等客户反应做一份战略报告好不好判断很主观。代码更干脆能不能编译测试过不过bug有没有复现。所以AI coding工具很快从补全一行代码走到处理一个任务。Cursor、GitHub Copilot、Claude Code这类工具已经开始读整个代码库、定位相关文件、修改多处代码、运行测试、根据报错继续修。这正在改变程序员生态。最浅的一层是补全代码、生成样板、解释报错初级工作被自动化掉一大块。更深的一层是AI开始进入代码审查、重构、测试生成、依赖升级、文档维护这些日常工程流程。但这不等于程序员不重要了。变化更像是分工重排写语法的价值下降定义问题、拆任务、看架构、控质量、补测试、管安全的价值上升。AI coding工具也解释了为什么未来Agent不会一下子横扫所有行业。它要有工具要有反馈要有边界。代码场景这些条件最齐所以先成熟。其他行业要复制这件事先得把流程、数据、权限和评测补起来。多模态和Computer Use这篇文章主要讲LLM因为文字是大语言模型的主战场。但另一条线也在快速推进图像、音频、视频生成式AI已经从玩具走到产品。多模态让模型能读图、听声音、看视频、理解屏幕。Computer use让模型看屏幕、移动鼠标、敲键盘像人一样操作软件。OpenAI的Operator、Anthropic的computer use都在往这个方向走。未来Agent会有更完整的输入输出能读合同PDF看仪表盘截图听会议录音生成PPT操作浏览器甚至剪一段视频。LLM仍然是中枢但它周围会接上视觉、语音、视频和操作系统界面。模型开始从会说话走向会看、会听、会点、会做。结语回头看这八年大语言模型的发展可以压成一句话一个为机器翻译设计的架构被一路放大、驯服、商品化最后变成了软件世界的新接口。第一步是架构。Transformer解决的是RNN在翻译里的两个老问题串行太慢长距离关系容易丢。Attention把所有词之间的关系一次摊开让GPU可以并行处理也让模型更容易抓住长句里的依赖关系。2017年那篇论文真正打开的后来成了整个LLM时代的计算底座。第二步是路线分叉。Google拿encoder做BERT主攻理解、分类、检索、问答。OpenAI拿decoder做GPT押注生成和预测下一个词。当时看BERT更像正统NLPGPT更像文字接龙。GPT-3之后这个判断反过来了只要模型足够大生成能力会吃掉很多原本被认为需要专门设计的任务。第三步是规模。GPT-3证明了一个反直觉事实很多能力不需要逐项手写规则也不需要每个任务单独训练规模上去之后模型会出现in-context learning这样的新行为。但规模不是一句大力出奇迹就完事。Megatron、GPipe、ZeRO、FlashAttention、KV cache、量化这些工程积累才让大模型真的训得动、跑得起、用得上。第四步是对齐。GPT-3很强但不好用。InstructGPT和ChatGPT解决的是另一个问题模型怎么听人话、按指令做事、少胡来。RLHF把人类偏好塞进训练流程Anthropic的Constitutional AI又证明对齐不一定只能靠海量用户反馈。预训练给模型知识后训练把模型调成一个可以被普通人使用的产品。第五步是生态。ChatGPT爆红之后闭源和开源很快分成两套系统。OpenAI、Anthropic、Google、xAI把模型做成云服务、App和API拼的是算力、产品、分发和企业销售。Meta、Mistral、DeepSeek、Qwen这些开源路线把模型变成开发者和企业可以本地部署、微调、私有化的基础设施。今天的大模型竞争早就超出了benchmark分数开始比一整套产业组织能力。第六步是效率。Chinchilla提醒大家参数不是唯一尺度数据也要跟上。MoE提醒大家模型可以有很大总容量但每次只激活一部分。开源模型能快速追上来靠的不只是追随前沿也靠更会算账同样的算力预算怎么训得更久、喂得更准、跑得更便宜。第七步是新Scaling轴。o1之后推理时算力变成新的变量。过去主要在训练阶段砸钱训出一个尽量强的模型现在遇到数学、代码、科学题还可以在回答阶段多花算力让模型多试几条路、多检查几次。第八步是系统化。RAG、长上下文、memory、tool calling、MCP、harness engineering这些词看起来杂其实都在回答同一个问题模型怎么进入真实工作流。所以这篇文章最后落到Agent原因很简单它把前面所有线索都收在了一起。没有强模型Agent只会胡说。没有RAG和长上下文它不知道该看什么。没有工具调用它只能写建议不能执行动作。没有harness它进不了生产环境。没有业务流程改造它也省不下真钱。2025年之后竞争重心开始从模型竞赛移到应用竞赛。基础模型公司往应用层走SaaS公司往Agent化走咨询公司和系统集成商重新变重要。企业最终不会为更会聊天长期付高价企业愿意为更低成本、更快流程、更少错误付钱。模型能力当然还会继续涨但边际收益正在变小。更大的空间可能在系统层怎样把一个模型、几个小模型、外部工具、知识库、业务系统和人类审批组合成稳定流程。过去十年AI工程的主角是训练一个更强的模型。接下来几年主角会越来越像围绕模型搭一套能交付结果的系统。今天的大语言模型还远没有定型。它像早期互联网也像早期云计算底层技术还在变商业模式还在试泡沫和真需求混在一起。但有一点已经很清楚LLM不会只是一类聊天产品。它更像一层新的软件抽象往下接数据、工具和算力往上接人、流程和公司决策。这就是过去八年真正发生的事语言模型从一个会续写文本的神经网络变成了一个可以被调用、被约束、被组合、被部署的通用计算零件。它还不稳定也不便宜更谈不上万能。但它已经足够强强到整个软件工业都必须围着它重新排一遍位置。P王畅 · Polaris
一篇文章讲清大语言模型发展史
发布时间:2026/5/17 1:10:25
2017年的某个夏天Google内部一群搞翻译的工程师发了一篇论文。标题很狂叫《Attention Is All You Need》。意思很明确我们把RNN彻底扔了只用注意力机制翻译效果反而更好。这篇论文后来被叫做Transformers。它在当时只是一篇机器翻译论文。但回头看它更像是大语言模型时代的操作系统——所有后来发生的故事都在这个框架上展开。从2017到今天不过八年。八年间这个行业经历了从学术论文到万亿美元市场的跃迁经历了OpenAI从无名小卒到顶流明星的逆袭经历了开源与闭源的路线之争经历了从“能说话”到“能办事”的能力跃迁。这篇文章想做一件事把大语言模型这条线从一堆散乱的名词整理成一条清楚的主线。不是技术名词年表而是讲清楚那几次关键转向——模型怎么从“预测下一个词”走到通用智能入口规模为什么成了核心变量ChatGPT到底改变了什么开源模型为什么突然追上来推理模型又意味着什么。我们开始。一、架构的胜利Transformers来了要理解后来发生的一切得先回到2017年理解Transformers为什么重要。那一年Google翻译已经在用神经网络了但用的是RNN——一种按顺序处理文本的模型。读一句话得从左到右一个词一个词滚第一遍记住我第二遍合并喜欢第三遍合并北京一路滚到烤鸭。这个过程有两个毛病第一串行。 一个词没处理完下一个词动不了。GPU有几千个计算核心但RNN只能用到其中一个。第二信号衰减。 等滚到烤鸭时我这个词已经被压缩了五六次早就模糊了。Google翻译组有八个人决定换思路。2017年6月他们发表了那篇后来被称为原子弹级论文的《Attention Is All You Need》。核心想法很简单不要串行了让每个词同时看所有词。怎么做到用注意力机制。举个例子我喜欢北京的烤鸭这句话里烤鸭两个字单独看就是烤的鸭子但在这句话里它特指北京烤鸭。模型怎么知道让烤鸭给每个词打分离北京最近给高分离喜欢中等离我和的几乎为零。按这个比例把所有词的信息吸收过来烤鸭这个词的向量就被改写了——它不再只是烤的鸭子而是这句话里那只我喜欢的北京烤鸭。这就是注意力。六个词同时各做一遍一轮跑完每个词都拿到了在这句话里的具体含义。没有串行没有压缩没有衰减。而且这六个词的计算可以打包成一次大矩阵乘法扔给GPU并行完成。这就是Attention Is All You Need的意思把RNN的循环结构整个扔掉问题反而都解决了。二、两条路线BERT和GPT的分叉Transformers最初是为翻译设计的分两半encoder负责读原文decoder负责写译文。但2018年之后大家发现这两半可以拆开各走各的路。Google走的是encoder路线做出了BERT。BERT的全称是Bidirectional Encoder Representations from Transformers。重点在两个词encoder——只用Transformer的左边bidirectional——读一个词时可以同时看左边和右边。BERT的训练方式像完形填空。给一段话随机遮住一些词让模型猜被遮住的是什么。比如我喜欢北京的[MASK]模型要从我、喜欢、北京、的这些上下文里猜出烤鸭。BERT解决的是NLP里最值钱的问题读懂一段话。分类、问答、实体识别、语义匹配——这些任务不需要模型生成新文本更需要模型把整段话看明白。BERT出来之后学术界主流认为这条路是对的理解和生成是两件事应该分开设计。BERT负责读懂GPT负责续写。OpenAI走的是decoder路线做出了GPT。GPT的全称是Generative Pre-trained Transformer。意思很直接先用海量文本训练一个会续写的Transformer再看这个续写能力能不能迁移到各种任务上。训练目标很简单给你前N个词猜第N1个词。这个目标比BERT的完形填空难。BERT两边都给你是选择题GPT只能看左边猜右边是开放题。但OpenAI赌的是能把开放题做好做选择题是顺带的事。2018年6月GPT-1发布1.17亿参数。2019年2月GPT-2发布15亿参数。从benchmark看GPT-2打不过同期BERT。2018年10月BERT一出来就把GPT-1压过去了。Facebook的RoBERTa优化版BERT只有3.55亿参数在GLUE、SQuAD这些榜单上继续压着GPT-2。参数量大四倍分数反而更低。但GPT-2有两件事让OpenAI看到另一种可能第一文本生成质量肉眼可见地强。 能写出连贯的长段落风格切换自如能以假乱真。第二它展示了一个模型能做很多事的迹象。 没有专门训练却在问答、摘要、翻译上表现出一定能力。这说明一件事BERT那种每个任务单独微调的路线可能不是终点。预测下一个词这个简单目标如果规模够大可能会长出通用能力。OpenAI内部有人想赌这件事。三、GPT-3的赌注大力出奇迹OpenAI内部有一群人想赌一件跟主流认知不同的事如果模型大到上千亿参数光猜下一个词这一招会不会自己长出新能力这个赌注的核心信徒是首席科学家Ilya Sutskever。他从AlexNet那个年代就坚信深度学习的进步主要靠规模算法创新次要。技术上给这个赌注提供依据的是2020年1月Jared Kaplan等人发表的《Scaling Laws for Neural Language Models》。这篇论文证明模型loss会随参数、数据、算力按可预测的幂律下降。换句话说多大算力换多少能力事前可以算出来。这给了OpenAI押1750亿参数这个具体数字的底气。但工程上不是一步到位的。GPT-1几张GPU就够GPT-2开始吃力GPT-3要冲到1750亿参数之前那套训练工具链根本顶不住。算一笔账1750亿参数光存权重就要约350GB用16位浮点加上反向传播的中间结果和优化器状态实际需要2到3TB内存。当时NVIDIA最强的V100每张才32GB显存单卡根本装不下。解决它需要三套工程突破第一关模型放不下一张卡。 NVIDIA 2019年9月发的Megatron-LM给出答案张量并行。把单个权重矩阵切成N份N张GPU各算一块再汇总。像一张大试卷撕成4份让4个人同时写。第二关层数堆起来还是装不下。 Google 2018年底发的GPipe给出答案流水线并行。不同层放到不同GPU数据像流水线一样从第一张卡流到最后一张。第三关优化器状态吃天量内存。 微软2019年发的ZeRO给出答案优化器状态、梯度、参数全部按GPU数量切开每张卡只存1/N需要时临时通信交换。N张卡的显存合起来变成一个虚拟大显存。三招组合起来叫3D并行。少任何一个都不行光张量并行96层叠不下光流水线单层装不下不上ZeRO光优化器状态就溢出。硬件这边微软在Azure上搭了一台约一万张V100 GPU的超级计算机2020年5月公布是当时全球前五的超算之一。2020年5月28日OpenAI发表GPT-3。四、范式转移in-context learningGPT-3的核心发现一句话讲完模型大到一定程度新能力会自己冒出来。它展示的最关键能力叫in-context learning上下文学习。模型不必为每个任务专门微调只要在prompt里给两三个示范它就能照着做这个任务。给两三个示范就照做的叫few-shot什么示范都不给直接做的叫zero-shot。效果有多炸论文里几个结果让人下巴掉下来GPT-3在SuperGLUE、TriviaQA这些benchmark上的few-shot分数跟专门fine-tune过的模型差不多甚至更好。它能写出像样的新闻文章人类读者区分真假的识别率只比扔硬币高一点。它能从自然语言描述生成简单代码、做基础算术、回答一些没见过的常识题。这种能力在小模型里完全看不到。 GPT-215亿参数也能续写但给它两三个示范它学不会照做。GPT-31750亿参数烧到那个临界值新行为整个浮上来。这是发生了相变像水烧到100度才沸腾。但更大的影响在工作方式层面。GPT-3触发了整个NLP行业从老范式到新范式的整体转移。老范式2018-2020 预训练一个模型针对每个任务收集标注数据微调。每个任务单独标数据、单独微调、单独部署。一家公司想做客服分类自动翻译文档摘要内容审核就得养四个不同的模型。新范式 模型不为任何具体任务训练只学一件事预测下一个词。要它做翻译就写prompt把下面英文翻成中文Hello world →要它做情感分析就写判断这段评论的情绪是正面还是负面[评论] →。从训练时绑定任务到使用时绑定任务。后来Stanford HAI在2021年专门发了一篇论文给这套范式命名叫foundation model基础模型。BERT那派理解和生成必须分开的理论判断被证伪了。从GPT-3之后所有前沿大模型——GPT、Claude、Gemini、LLaMA、DeepSeek、Qwen——都是decoder-only Transformer的后代。当然BERT没有死。它在产业界仍然是分类、检索、向量embedding这些窄场景的主力。Google搜索后端、文档分类系统、电商推荐里的语义匹配今天还在跑BERT派的模型。它们小、快、便宜专门做一件事比叫一个千亿大模型来做划算得多。但前沿AI这条赛道的主线从GPT-3起彻底换了。五、能力不等于好用RLHF登场GPT-3发完OpenAI在2020年6月把它做成商业API上线。很贵起步价0.06美元1000 token。一年里上百家公司围着这个API做产品Jasper做营销文案AI Dungeon做交互小说Replika做陪伴聊天。但绝大多数尝试很快撞墙。模型什么都会但什么都不听话。 你让它写一份正经报告它会扯到段子上你让它客观回答问题它会编造数据你问它一个敏感话题它会给你一段不合适的回答。最典型的事故是AI Dungeon2020年7月接入GPT-3后体验质变但很快出现大量不可控生成露骨、暴力、儿童内容。OpenAI在2021年4月威胁切断API访问逼着AI Dungeon加各种过滤器社区随后流失大半。这暴露了一个此前没被认真理论化的鸿沟模型知道什么和模型愿意做什么之间隔着一层。 光把模型变大不够必须再做一层对齐。圈里管这个叫alignment problem。GPT-3之后的两年多OpenAI主要做的事就是把这个对齐层补上。转折点是2022年3月OpenAI发表InstructGPT论文给出了RLHFReinforcement Learning from Human Feedback的标准三段论第一步监督微调SFT。 雇40多个标注员针对几万条真实用户prompt亲手写出理想回答。拿这批数据微调GPT-3。模型第一次学到什么样的回答符合期待。第二步训练奖励模型。 让微调过的模型对同一个prompt生成4到9个不同回答标注员从好到坏排序。用这批排序数据训练一个独立的奖励模型它不给答案打分只预测哪个回答更受人喜欢。第三步强化学习。 让模型一遍遍生成回答、被奖励模型打分、根据分数调整自己。算法叫PPOProximal Policy Optimization。实验结果很硬13亿参数的InstructGPT在人类偏好打分上击败了1750亿参数的原版GPT-3参数差了一百三十多倍。这件事对整个行业冲击巨大让模型变好用跟把模型变大是两条不同的路。InstructGPT上线8个月后2022年11月30日OpenAI发布ChatGPT。背后的模型叫GPT-3.5是InstructGPT路线训出来的进一步版本先在GPT-3基础上做了一轮代码增强训练再做完整的RLHF。ChatGPT一发就在整个社会爆火。5天破百万用户2个月破1亿月活刷新了所有消费产品的增长记录。让ChatGPT从会续写变成能对话的正是InstructGPT那一套RLHF。六、ChatGPT之后的百花齐放ChatGPT在2022年11月点燃了整个行业。2023到2024这两年成了大语言模型的爆发期闭源前沿玩家加码追赶开源浪潮起来中国玩家集体下场整个生态从OpenAI一家独大变成多极混战。Anthropic另一条对齐路线Anthropic的故事得从OpenAI内部的一次分裂说起。2020年底到2021年初OpenAI研究部门一批人先后离职包括研究VP Dario Amodei、运营VP Daniela Amodei兄妹加上GPT-3论文一作Tom Brown、Scaling Laws论文一作Jared Kaplan等核心人员。他们2021年1月在旧金山成立了Anthropic。公开说法是对OpenAI的方向有不同看法。实际矛盾大致是2019年OpenAI接受微软投资改成利润上限公司结构让原本非盈利的初心变了味2020年GPT-3商业化太快安全研究分到的资源不够。Anthropic的代表作是Constitutional AICAI2022年12月发表。核心想法是写一套明文原则宪法让模型自己用这套原则评估、批评、改写自己的回答再用这些改写后的数据训练自己。把RLHF里人类反馈那一环换成AI自反馈规模化的瓶颈一下消除了。CAI对Anthropic尤其重要。他们当时没有OpenAI那种亿级用户的反馈来源如果死磕RLHF原版方案永远追不上。但要老实说一句早期Claude跟同期OpenAI旗舰模型差距明显。2023年3月Claude 1大致跟ChatGPT一个量级但同月发布的GPT-4是另一个层次。2023年7月Claude 2、11月Claude 2.1提升肉眼可见但仍在GPT-4之下。整个2023年Claude在工程师圈里是小众替代不是主流选择。真正缩到平起平坐是2024年3月的Claude 3系列。 Opus在多项基准上跟GPT-4打平或小幅领先是Anthropic第一次拿出能跟OpenAI旗舰对垒的模型。2024年6月Claude 3.5 Sonnet在代码任务上明显超过GPT-4工程师圈大批人切到Claude。Anthropic用Constitutional AI这条路线追平OpenAI花了大约三年2021创立到2024年3月Claude 3。LLaMA开源浪潮的引爆点Meta在2023年2月发了LLaMA-1参数从7亿到650亿。本来只对学术研究开放但权重在发布一周内被泄漏到4chan整个开源社区瞬间上车。架构上LLaMA跟GPT、Claude没本质区别都是decoder-only Transformer。LLaMA用的几个优化SwiGLU激活、RoPE位置编码、RMSNorm后来被各家普遍采用。真正不同在训练配方参数压小、数据加多。 13B模型喂1万亿token跟GPT-3那种参数大、数据相对少的路线相反。这条路为什么有效我们后面会解释。LLaMA放出来够用但后训练这一头Meta一直比OpenAI/Anthropic弱。所以Llama衍生模型像爆米花一样冒出来Stanford的Alpaca用GPT生成的数据微调伯克利 Vicuna用ChatGPT对话数据微调。这些衍生品技术上违反服务条款但实际很难追查等于借闭源模型的对齐能力训出开源模型的对齐版本。为什么衍生模型偏偏围着LLaMA转因为OpenAI和Anthropic全程闭源GPT-4、Claude在外人手里只是API接口权重拿不到、不能微调、不能本地部署。开源社区想做衍生必须有一个前沿水平开放权重的底子。2023年初这种东西不存在LLaMA是第一个把这两件事同时做到的。2023年7月Meta发LLaMA-2许可证改成商用可用。2024年4月Llama-3发布70B版本基准接近GPT-42024年7月Llama-3.1的405B开源版直接打到当时GPT-4o水平。但LLaMA的高光时刻停在了Llama-3.1。2025年4月发的Llama-4口碑很糟。这段时间DeepSeek V3/R1接管了开源前沿位置Qwen也持续强势LLaMA从开源前沿滑到第二梯队。原因是多方面的首席科学家Yann LeCun公开质疑LLM路线关键研究员流失到Anthropic和xAIMeta内部对是否要赢这场本来动力就不强Meta不靠卖AI赚钱靠社交广告。全球玩家入场ChatGPT之后两年闭源前沿之外的玩家从美中欧三个方向集体入场。美国这边Google反应慢了一拍但没缺席。2023年2月仓促发了Bard效果一般。2023年12月推出Gemini 1.0替换Bard2024年2月推出Gemini 1.5主打百万级上下文窗口2024年12月推出Gemini 2.0。从2024年起Google在多模态和长上下文这两块开始压住OpenAI。马斯克的xAI是后来者2023年7月成立同年11月推出Grok-12024年3月开源权重。走的是社交平台入口实时数据大算力的路线。欧洲方面以Mistral为代表。法国Mistral 2023年5月成立几个月内开源Mistral 7B和Mixtral 8x7B。定位很清晰模型要小、快、便宜能本地部署能进欧洲企业的私有化场景。中国这边反应相当迅速。2023年3月百度文心一言4月阿里通义千问6月智谱ChatGLM-28月字节豆包10月月之暗面Kimi11月零一万物Yi。到2024年备案上线、能对公众提供服务的国产生成式AI大模型接近200个。早期玩家很多真正杀出来的是少数几家。阿里Qwen靠开源和工程完整度进入全球开发者社区。DeepSeek靠V3和R1把成本、MoE、推理能力一起打到海外圈面前。智谱GLM在政企和国产生态里站住位置。Kimi押长上下文。豆包靠App入口和流量规模做产品化。到2025年全球大模型格局基本是中美两极。 美国占闭源前沿OpenAI、Anthropic、Google、xAI各有打法。中国占开源前沿DeepSeek、Qwen、GLM、Yi等模型把开放权重和低成本路线推到全球开发者面前。欧洲有Mistral但总体体量不够。七、两个关键修正Chinchilla和MoE百花齐放发生得这么快背后有两个关键修正撑着。Chinchilla修正了Scaling LawGPT-3出来之后行业的直觉是模型越大越聪明。 大家开始拼参数1750亿、2800亿、万亿参数。问题是参数变大之后如果训练文本没有跟上模型就像一个脑容量很大但书没读够的人潜力没吃满。DeepMind 2022年的Chinchilla论文把这个问题重新算了一遍。结论很直接同样的算力不该只顾着把模型做大也要让模型读足够多的文本。参数和数据要一起涨甚至很多时候少堆一点参数、多喂一点数据效果反而更好。最有说服力的例子是Chinchilla自己。它只有700亿参数比DeepMind之前的Gopher小很多但训练数据多得多。结果这个更小的模型在一堆评测上反而超过了2800亿参数的Gopher也超过了GPT-3。这件事改变了开源模型的打法。开源社区很难一上来就训1750亿参数模型但可以训练一个更小的模型再给它喂足够多、足够干净的数据。LLaMA就是这条路线的标志性成果参数没有夸张到天上去训练数据却吃得很足最后做到小模型打大模型。Chinchilla真正修正的是规模这个词的含义。规模不只是参数规模也包括训练数据规模。MoE大模型怎么变得更便宜MoE全称是Mixture of Experts混合专家。想法很直观一个问题来了不必让所有人一起上只要找最相关的几个专家处理。放到Transformer里decoder里有attention负责看上下文attention后面还有一段前馈网络负责把信息再加工一下。普通模型每次都会动用同一整套网络。MoE把这套网络拆成很多个专家再加一个很小的调度员。每个token进来调度员只挑其中一两个专家来处理。这样做的好处是账面上模型可以很大真正干活的部分却不必每次都全部启动。比如一个模型总共有几千亿参数但处理某个token时只激活其中几十亿参数。总容量变大了推理成本没有跟着等比例变大。这个想法很早就有人做过但长期不好用。难点不在概念在于工程。调度员如果分配不好有的专家忙死有的专家闲着训练就不稳定。专家之间还要互相传数据通信成本也会把收益吃掉。到2023年以后训练框架、GPU通信、低精度训练都成熟了MoE终于稳得住、训得动。Mistral的Mixtral 8×7B是一个重要信号它有八个专家每次只激活两个效果可以压过不少更大的稠密模型。DeepSeek V3把这条路推得更远总参数做到6710亿但每个token只激活370亿左右。把Chinchilla和MoE合起来看逻辑就顺了●Chinchilla告诉我们同样算力下别盲目堆参数要让模型读够数据。●MoE告诉我们模型可以有很大的总容量但每次推理只用一部分。开源社区能在2023到2024年追得这么快背后很大一部分原因就在这里。八、推理模型一个新的Scaling轴2024年9月OpenAI发布o1 preview。这个模型让整个行业意识到一件事Scaling不只是把模型变大、把数据加多还可以在回答阶段花更多算力。过去模型回答问题基本是看到问题就往下生成。推理模型会先花更多时间在内部推演试几条路检查哪里错了再给出最终答案。简单说过去主要是在训练时多花算力把模型训得更强现在是在回答时也多花算力让模型多想一会儿。这为什么重要因为数学、编程、科学题这类任务有明确的对错。模型做对了就奖励做错了就惩罚这个反馈比哪个回答更好干净得多。o1发布后Google在2024年12月放出Gemini 2.0 Flash ThinkingDeepSeek在2025年1月发布R1Anthropic在2025年2月发布Claude 3.7 Sonnet的extended thinkingxAI的Grok-3也加入了Think和Big Brain这类推理模式。推理模型真正改变的是算力花钱的位置。过去主要把钱花在训练阶段训好之后尽量便宜地服务用户。现在多了一种买法每次遇到难题就临时多买一点思考时间。大力出奇迹没有消失只是从训练时大力扩展到了回答时也大力。九、系统化模型进入真实工作流到这里故事的重心开始换地方。前面讲的主要是模型怎么变强。架构、预训练、后训练、开源、MoE、推理时算力所有努力都围着模型本身转。2025年之后另一个问题变得更急模型已经够强了它到底能替人干什么RAG模型接外部知识库RAG不算最新热点源头是2020年Facebook AI的Retrieval-Augmented Generation论文。真正变成工程标配是ChatGPT火了之后企业开始把大模型接进自己的文档、知识库和数据库。RAG的思路很简单先检索再生成。 用户问一个问题系统先去外部资料里找相关片段然后把这些片段塞进模型上下文让模型基于材料回答。这解决的是LLM最要命的几个现实问题模型训练完之后知识就固定在参数里没法知道公司昨天刚更新的政策它还会编造回答完也说不清依据来自哪里。RAG把外部材料拉进来至少让回答有出处、有上下文也更容易更新。Tool Calling和MCP模型开始调用系统2023年6月OpenAI在API里加入function calling意思是开发者可以把外部函数描述给模型。模型不再只能生成一段自然语言而是可以输出一段结构化参数告诉系统现在该查订单现在该调退款接口现在该发一封邮件。这件事把LLM从聊天框里拉了出来。过去模型的输出就是文字文字给人看。tool calling之后模型的输出可以变成软件系统的输入直接触发数据库查询、API调用、代码执行和业务流程。Anthropic在2024年11月开源MCPModel Context Protocol想解决的是工具调用乱的问题。MCP可以理解成AI应用和外部系统之间的一套通用插头文档库、GitHub、数据库、Slack、浏览器都按同一套协议把资源和工具暴露出来模型客户端按同一套方式接入。Long Context和Memory模型带着历史工作早期模型的context window只有几千token一篇长论文、一份合同、一个稍微复杂的代码库很快就塞不进去。用户只好把材料切碎一段段问模型也容易前面刚读过后面就忘了。2024年长上下文变成一条明确赛道。Google在Gemini 1.5 Pro里把上下文窗口推到100万tokenClaude、GPT、Qwen、Kimi也都在往长上下文走。长上下文解决的是这一轮能读多少。Memory解决的是跨会话能不能记住。2024年OpenAI开始给ChatGPT做memory让它记住用户偏好、写作格式、工作背景。到2025年ChatGPT的memory进一步扩展可以参考过去更多聊天历史。这对个人助理和Agent很关键。一个长期帮你写文章的模型如果记得你不喜欢什么句式、常写哪些主题、引用格式怎么放下一次就不用从零交代。把RAG、长上下文和memory放在一起看LLM正在补三种记忆能力●RAG让模型查外部资料●长上下文让模型一次读更多现场材料●memory让模型跨任务记住长期背景Agent要稳定工作离不开这三层。十、从模型竞赛到应用竞赛2025年之后竞争重心开始从模型竞赛移到应用竞赛。基础模型公司不再满足于只卖APISaaS公司也不再满足于只加一个AI按钮。大家都在往同一个方向挤把模型接进真实工作流让它能调用工具、读写数据、执行动作、交付结果。Agent的产品化先把套壳说清楚。早期很多AI创业公司做的就是这个底层直接调用OpenAI/Anthropic/Gemini的API外面包一层界面、提示词模板和收费页。换个垂直场景写几组prompt就说自己是AI写作、AI客服、AI销售。这种套壳更接近AI-powered SaaS未必是Agent。它本质上还是传统软件只是在某个环节调用模型生成一段话。真正的Agent要多几层东西它要能理解目标拆出步骤选择工具调用API读取结果发现错误再决定下一步。它还要接权限、日志、审批、记忆、数据源和评测系统。模型只是脑子Agent产品还需要手、脚、眼睛、记录本和刹车。2025年之后变化更明显。过去很多创业公司在应用层套壳现在基础模型公司直接下场做应用层。OpenAI先做Operator让模型用浏览器点网页后来又把Operator、Deep Research、代码执行整合进ChatGPT agent。Anthropic把Claude Code、computer use、MCP一路往工具和开发者工作流里推。这里的压力很现实基础模型只卖token容易变成云服务里的算力商品。应用层才离用户预算更近也离企业流程更近。模型公司自己做Agent本质上是在往SaaS和企业软件的地盘走。Coding Agent最先跑通Coding Agent最先成熟原因很直接代码场景天然适合Agent。它有文件系统、终端、测试、编译器、Git、issue、CI。模型改完代码之后系统可以立刻告诉它对了还是错了。这和很多办公场景不一样——写一封销售邮件好不好往往要等客户反应做一份战略报告好不好判断很主观。代码更干脆能不能编译测试过不过bug有没有复现。所以AI coding工具很快从补全一行代码走到处理一个任务。Cursor、GitHub Copilot、Claude Code这类工具已经开始读整个代码库、定位相关文件、修改多处代码、运行测试、根据报错继续修。这正在改变程序员生态。最浅的一层是补全代码、生成样板、解释报错初级工作被自动化掉一大块。更深的一层是AI开始进入代码审查、重构、测试生成、依赖升级、文档维护这些日常工程流程。但这不等于程序员不重要了。变化更像是分工重排写语法的价值下降定义问题、拆任务、看架构、控质量、补测试、管安全的价值上升。AI coding工具也解释了为什么未来Agent不会一下子横扫所有行业。它要有工具要有反馈要有边界。代码场景这些条件最齐所以先成熟。其他行业要复制这件事先得把流程、数据、权限和评测补起来。多模态和Computer Use这篇文章主要讲LLM因为文字是大语言模型的主战场。但另一条线也在快速推进图像、音频、视频生成式AI已经从玩具走到产品。多模态让模型能读图、听声音、看视频、理解屏幕。Computer use让模型看屏幕、移动鼠标、敲键盘像人一样操作软件。OpenAI的Operator、Anthropic的computer use都在往这个方向走。未来Agent会有更完整的输入输出能读合同PDF看仪表盘截图听会议录音生成PPT操作浏览器甚至剪一段视频。LLM仍然是中枢但它周围会接上视觉、语音、视频和操作系统界面。模型开始从会说话走向会看、会听、会点、会做。结语回头看这八年大语言模型的发展可以压成一句话一个为机器翻译设计的架构被一路放大、驯服、商品化最后变成了软件世界的新接口。第一步是架构。Transformer解决的是RNN在翻译里的两个老问题串行太慢长距离关系容易丢。Attention把所有词之间的关系一次摊开让GPU可以并行处理也让模型更容易抓住长句里的依赖关系。2017年那篇论文真正打开的后来成了整个LLM时代的计算底座。第二步是路线分叉。Google拿encoder做BERT主攻理解、分类、检索、问答。OpenAI拿decoder做GPT押注生成和预测下一个词。当时看BERT更像正统NLPGPT更像文字接龙。GPT-3之后这个判断反过来了只要模型足够大生成能力会吃掉很多原本被认为需要专门设计的任务。第三步是规模。GPT-3证明了一个反直觉事实很多能力不需要逐项手写规则也不需要每个任务单独训练规模上去之后模型会出现in-context learning这样的新行为。但规模不是一句大力出奇迹就完事。Megatron、GPipe、ZeRO、FlashAttention、KV cache、量化这些工程积累才让大模型真的训得动、跑得起、用得上。第四步是对齐。GPT-3很强但不好用。InstructGPT和ChatGPT解决的是另一个问题模型怎么听人话、按指令做事、少胡来。RLHF把人类偏好塞进训练流程Anthropic的Constitutional AI又证明对齐不一定只能靠海量用户反馈。预训练给模型知识后训练把模型调成一个可以被普通人使用的产品。第五步是生态。ChatGPT爆红之后闭源和开源很快分成两套系统。OpenAI、Anthropic、Google、xAI把模型做成云服务、App和API拼的是算力、产品、分发和企业销售。Meta、Mistral、DeepSeek、Qwen这些开源路线把模型变成开发者和企业可以本地部署、微调、私有化的基础设施。今天的大模型竞争早就超出了benchmark分数开始比一整套产业组织能力。第六步是效率。Chinchilla提醒大家参数不是唯一尺度数据也要跟上。MoE提醒大家模型可以有很大总容量但每次只激活一部分。开源模型能快速追上来靠的不只是追随前沿也靠更会算账同样的算力预算怎么训得更久、喂得更准、跑得更便宜。第七步是新Scaling轴。o1之后推理时算力变成新的变量。过去主要在训练阶段砸钱训出一个尽量强的模型现在遇到数学、代码、科学题还可以在回答阶段多花算力让模型多试几条路、多检查几次。第八步是系统化。RAG、长上下文、memory、tool calling、MCP、harness engineering这些词看起来杂其实都在回答同一个问题模型怎么进入真实工作流。所以这篇文章最后落到Agent原因很简单它把前面所有线索都收在了一起。没有强模型Agent只会胡说。没有RAG和长上下文它不知道该看什么。没有工具调用它只能写建议不能执行动作。没有harness它进不了生产环境。没有业务流程改造它也省不下真钱。2025年之后竞争重心开始从模型竞赛移到应用竞赛。基础模型公司往应用层走SaaS公司往Agent化走咨询公司和系统集成商重新变重要。企业最终不会为更会聊天长期付高价企业愿意为更低成本、更快流程、更少错误付钱。模型能力当然还会继续涨但边际收益正在变小。更大的空间可能在系统层怎样把一个模型、几个小模型、外部工具、知识库、业务系统和人类审批组合成稳定流程。过去十年AI工程的主角是训练一个更强的模型。接下来几年主角会越来越像围绕模型搭一套能交付结果的系统。今天的大语言模型还远没有定型。它像早期互联网也像早期云计算底层技术还在变商业模式还在试泡沫和真需求混在一起。但有一点已经很清楚LLM不会只是一类聊天产品。它更像一层新的软件抽象往下接数据、工具和算力往上接人、流程和公司决策。这就是过去八年真正发生的事语言模型从一个会续写文本的神经网络变成了一个可以被调用、被约束、被组合、被部署的通用计算零件。它还不稳定也不便宜更谈不上万能。但它已经足够强强到整个软件工业都必须围着它重新排一遍位置。P王畅 · Polaris