网罗开发小红书、快手、视频号同名大家好我是展菲目前在上市企业从事人工智能项目研发管理工作平时热衷于分享各种编程领域的软硬技能知识以及前沿技术包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者《ESP32-C3 物联网工程开发实战》图书作者《SwiftUI 入门进阶与实战》超级个体COC上海社区主理人特约讲师大学讲师谷歌亚马逊分享嘉宾科技博主华为HDE/HDG我的博客内容涵盖广泛主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告同时也会提供产品优缺点分析、横向对比并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。展菲您的前沿技术领航员 大家好我是展菲 全网搜索“展菲”即可纵览我在各大平台的知识足迹。每周定时推送干货满满的技术长文从新兴框架的剖析到运维实战的复盘助您技术进阶之路畅通无阻。文章目录引言一、为什么大模型不等于高性能二、性能问题为什么开始从模型转向系统三、长上下文让性能挑战发生质变四、Agent系统为什么比模型更难优化五、多Agent正在制造新的性能灾难六、AI Runtime正在成为新的性能中心七、真正的瓶颈开始从Compute转向State八、为什么AI系统越来越像操作系统九、从大模型到大系统总结引言过去几年AI 行业有一个最明显的发展方向模型越来越大从Billion Parameters到Trillion Parameters从GPT-3到GPT-4 Claude Gemini DeepSeek整个行业似乎都在围绕同一个目标前进让模型变得更大因为过去很长时间里一个简单规律始终成立参数增加 ↓ 能力增强于是更大模型 更强智能成为行业共识但随着越来越多企业开始把 AI 部署到真实业务场景一个新的问题开始浮现。很多团队发现模型能力已经足够强可系统依然响应慢 成本高 吞吐低 扩展困难问题出在哪里很多时候并不是模型不会推理而是系统无法承载推理于是行业开始进入一个新的阶段过去讨论的是Large Model未来讨论的是Large System因为决定 AI 上限的已经不再只是模型本身而是整个系统。一、为什么大模型不等于高性能很多人第一次接触 AI 时都会产生一个直觉模型越强系统越快。但现实往往恰恰相反例如responsemodel.generate(prompt)看起来只有一行代码但背后实际上经历Prompt处理 Tokenization KV Cache加载 GPU调度 网络同步 结果生成真正耗时的往往不是generate()本身而是数据准备 状态管理 资源调度于是现代 AI 系统经常出现一个现象GPU利用率不到50%但用户延迟依然很高因为性能瓶颈已经从Compute逐渐转向System二、性能问题为什么开始从模型转向系统在传统软件时代性能优化通常围绕算法复杂度展开例如O(n²)↓ O(n log n)系统立刻获得提升但 AI 系统不同。现代 AI 服务往往包含模型层 缓存层 向量数据库 Agent层 工具层 网络层例如一次 Agent 请求用户输入 ↓ Planner ↓ Memory ↓ Tool ↓ LLM ↓ Verifier ↓ 输出可能涉及数十次调用于是模型推理仅仅只是整个链路的一部分未来系统延迟越来越来自链路复杂度而不是模型复杂度三、长上下文让性能挑战发生质变过去4K Context已经很大今天128K 256K 1M Context正在成为趋势。问题在于长上下文带来的不仅仅是更多Token而是更多状态例如seq_len1000000hidden4096memory(seq_len*hidden*2)print(memory/1024/1024/1024)结果很容易达到数GB甚至数十GB于是GPU还没算满但显存已经满了性能问题开始从算不快变成存不下四、Agent系统为什么比模型更难优化过去的 AI问 ↓ 答一次请求结束状态销毁。但 Agent 不同Agent 会维护记忆 计划 执行状态 历史任务例如classAgent:def__init__(self):self.memory[]self.tasks[]随着运行时间增长Memory越来越大系统复杂度持续增加于是性能问题开始变成状态管理问题而不是推理问题未来 Agent Runtime 的挑战越来越接近数据库而不是模型服务五、多Agent正在制造新的性能灾难未来越来越多系统开始采用Multi-Agent例如Planner Agent Coder Agent Research Agent Review Agent每个 Agent 都需要Context Memory State例如agents1000memory_per_agent100total_memory(agents*memory_per_agent)print(total_memory)结果100000 MB即100GB而且还没计算同步成本 通信成本 共享状态成本于是未来 AI 最大的问题很可能不是模型太慢而是Agent太多六、AI Runtime正在成为新的性能中心过去模型决定能力未来Runtime决定效率因为 Runtime 负责任务调度 缓存管理 状态管理 资源管理例如classRuntime:defschedule(self):passdefallocate(self):passdefrecover(self):pass未来 Runtime 的重要性越来越像操作系统传统 OS 管理CPU Memory Process未来 Runtime 管理Agent State Model Context七、真正的瓶颈开始从Compute转向State过去性能问题 计算问题未来性能问题 状态问题因为 AI 正在拥有长期记忆 持续推理 多Agent协作 自治执行这些能力都会带来海量状态于是State Throughput开始变得比Compute Throughput更重要未来很多系统的瓶颈可能不是GPU算不动而是状态搬不动八、为什么AI系统越来越像操作系统如果回顾整个演化过程。会发现传统软件管理代码云计算时代管理服务AI时代管理智能而管理智能的本质就是管理状态 管理资源 管理协作这与操作系统解决的问题高度相似因此未来很多 AI 平台最终都会演化成AI OS其核心职责不再是运行模型而是运行智能系统九、从大模型到大系统过去几年行业关注的是Model Scaling未来几年行业关注的将是System Scaling因为100B模型已经不再稀缺真正稀缺的是能够稳定运行100万Agent的系统未来企业竞争的关键能力越来越不是训练模型而是运营智能系统总结过去十年AI 行业经历的是模型革命核心问题是如何让模型更聪明未来十年AI 行业正在进入系统革命核心问题变成如何让智能持续运行因为当 AI 开始拥有长上下文 长期记忆 多Agent协作 自治任务真正复杂的问题已经不再是模型如何推理而是系统如何承载推理所以从大模型到大系统AI 性能挑战正在发生一次根本性的迁移Compute Scaling ↓ Model Scaling ↓ System Scaling ↓ State Scaling未来决定 AI 上限的很可能不再是模型参数数量。而是谁能够构建一个稳定、高效、可扩展的智能运行系统。这场从“大模型”到“大系统”的演进或许才是 AI 基础设施真正的主战场。
从大模型到大系统:AI时代真正的性能挑战
发布时间:2026/6/8 18:42:19
网罗开发小红书、快手、视频号同名大家好我是展菲目前在上市企业从事人工智能项目研发管理工作平时热衷于分享各种编程领域的软硬技能知识以及前沿技术包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者《ESP32-C3 物联网工程开发实战》图书作者《SwiftUI 入门进阶与实战》超级个体COC上海社区主理人特约讲师大学讲师谷歌亚马逊分享嘉宾科技博主华为HDE/HDG我的博客内容涵盖广泛主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告同时也会提供产品优缺点分析、横向对比并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。展菲您的前沿技术领航员 大家好我是展菲 全网搜索“展菲”即可纵览我在各大平台的知识足迹。每周定时推送干货满满的技术长文从新兴框架的剖析到运维实战的复盘助您技术进阶之路畅通无阻。文章目录引言一、为什么大模型不等于高性能二、性能问题为什么开始从模型转向系统三、长上下文让性能挑战发生质变四、Agent系统为什么比模型更难优化五、多Agent正在制造新的性能灾难六、AI Runtime正在成为新的性能中心七、真正的瓶颈开始从Compute转向State八、为什么AI系统越来越像操作系统九、从大模型到大系统总结引言过去几年AI 行业有一个最明显的发展方向模型越来越大从Billion Parameters到Trillion Parameters从GPT-3到GPT-4 Claude Gemini DeepSeek整个行业似乎都在围绕同一个目标前进让模型变得更大因为过去很长时间里一个简单规律始终成立参数增加 ↓ 能力增强于是更大模型 更强智能成为行业共识但随着越来越多企业开始把 AI 部署到真实业务场景一个新的问题开始浮现。很多团队发现模型能力已经足够强可系统依然响应慢 成本高 吞吐低 扩展困难问题出在哪里很多时候并不是模型不会推理而是系统无法承载推理于是行业开始进入一个新的阶段过去讨论的是Large Model未来讨论的是Large System因为决定 AI 上限的已经不再只是模型本身而是整个系统。一、为什么大模型不等于高性能很多人第一次接触 AI 时都会产生一个直觉模型越强系统越快。但现实往往恰恰相反例如responsemodel.generate(prompt)看起来只有一行代码但背后实际上经历Prompt处理 Tokenization KV Cache加载 GPU调度 网络同步 结果生成真正耗时的往往不是generate()本身而是数据准备 状态管理 资源调度于是现代 AI 系统经常出现一个现象GPU利用率不到50%但用户延迟依然很高因为性能瓶颈已经从Compute逐渐转向System二、性能问题为什么开始从模型转向系统在传统软件时代性能优化通常围绕算法复杂度展开例如O(n²)↓ O(n log n)系统立刻获得提升但 AI 系统不同。现代 AI 服务往往包含模型层 缓存层 向量数据库 Agent层 工具层 网络层例如一次 Agent 请求用户输入 ↓ Planner ↓ Memory ↓ Tool ↓ LLM ↓ Verifier ↓ 输出可能涉及数十次调用于是模型推理仅仅只是整个链路的一部分未来系统延迟越来越来自链路复杂度而不是模型复杂度三、长上下文让性能挑战发生质变过去4K Context已经很大今天128K 256K 1M Context正在成为趋势。问题在于长上下文带来的不仅仅是更多Token而是更多状态例如seq_len1000000hidden4096memory(seq_len*hidden*2)print(memory/1024/1024/1024)结果很容易达到数GB甚至数十GB于是GPU还没算满但显存已经满了性能问题开始从算不快变成存不下四、Agent系统为什么比模型更难优化过去的 AI问 ↓ 答一次请求结束状态销毁。但 Agent 不同Agent 会维护记忆 计划 执行状态 历史任务例如classAgent:def__init__(self):self.memory[]self.tasks[]随着运行时间增长Memory越来越大系统复杂度持续增加于是性能问题开始变成状态管理问题而不是推理问题未来 Agent Runtime 的挑战越来越接近数据库而不是模型服务五、多Agent正在制造新的性能灾难未来越来越多系统开始采用Multi-Agent例如Planner Agent Coder Agent Research Agent Review Agent每个 Agent 都需要Context Memory State例如agents1000memory_per_agent100total_memory(agents*memory_per_agent)print(total_memory)结果100000 MB即100GB而且还没计算同步成本 通信成本 共享状态成本于是未来 AI 最大的问题很可能不是模型太慢而是Agent太多六、AI Runtime正在成为新的性能中心过去模型决定能力未来Runtime决定效率因为 Runtime 负责任务调度 缓存管理 状态管理 资源管理例如classRuntime:defschedule(self):passdefallocate(self):passdefrecover(self):pass未来 Runtime 的重要性越来越像操作系统传统 OS 管理CPU Memory Process未来 Runtime 管理Agent State Model Context七、真正的瓶颈开始从Compute转向State过去性能问题 计算问题未来性能问题 状态问题因为 AI 正在拥有长期记忆 持续推理 多Agent协作 自治执行这些能力都会带来海量状态于是State Throughput开始变得比Compute Throughput更重要未来很多系统的瓶颈可能不是GPU算不动而是状态搬不动八、为什么AI系统越来越像操作系统如果回顾整个演化过程。会发现传统软件管理代码云计算时代管理服务AI时代管理智能而管理智能的本质就是管理状态 管理资源 管理协作这与操作系统解决的问题高度相似因此未来很多 AI 平台最终都会演化成AI OS其核心职责不再是运行模型而是运行智能系统九、从大模型到大系统过去几年行业关注的是Model Scaling未来几年行业关注的将是System Scaling因为100B模型已经不再稀缺真正稀缺的是能够稳定运行100万Agent的系统未来企业竞争的关键能力越来越不是训练模型而是运营智能系统总结过去十年AI 行业经历的是模型革命核心问题是如何让模型更聪明未来十年AI 行业正在进入系统革命核心问题变成如何让智能持续运行因为当 AI 开始拥有长上下文 长期记忆 多Agent协作 自治任务真正复杂的问题已经不再是模型如何推理而是系统如何承载推理所以从大模型到大系统AI 性能挑战正在发生一次根本性的迁移Compute Scaling ↓ Model Scaling ↓ System Scaling ↓ State Scaling未来决定 AI 上限的很可能不再是模型参数数量。而是谁能够构建一个稳定、高效、可扩展的智能运行系统。这场从“大模型”到“大系统”的演进或许才是 AI 基础设施真正的主战场。