从大模型到大系统：AI时代真正的性能挑战

发布时间：2026/6/8 18:42:19

网罗开发小红书、快手、视频号同名大家好我是展菲目前在上市企业从事人工智能项目研发管理工作平时热衷于分享各种编程领域的软硬技能知识以及前沿技术包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者《ESP32-C3 物联网工程开发实战》图书作者《SwiftUI 入门进阶与实战》超级个体COC上海社区主理人特约讲师大学讲师谷歌亚马逊分享嘉宾科技博主华为HDE/HDG我的博客内容涵盖广泛主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告同时也会提供产品优缺点分析、横向对比并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。展菲您的前沿技术领航员大家好我是展菲全网搜索“展菲”即可纵览我在各大平台的知识足迹。每周定时推送干货满满的技术长文从新兴框架的剖析到运维实战的复盘助您技术进阶之路畅通无阻。文章目录引言一、为什么大模型不等于高性能二、性能问题为什么开始从模型转向系统三、长上下文让性能挑战发生质变四、Agent系统为什么比模型更难优化五、多Agent正在制造新的性能灾难六、AI Runtime正在成为新的性能中心七、真正的瓶颈开始从Compute转向State八、为什么AI系统越来越像操作系统九、从大模型到大系统总结引言过去几年AI 行业有一个最明显的发展方向模型越来越大从Billion Parameters到Trillion Parameters从GPT-3到GPT-4 Claude Gemini DeepSeek整个行业似乎都在围绕同一个目标前进让模型变得更大因为过去很长时间里一个简单规律始终成立参数增加 ↓ 能力增强于是更大模型更强智能成为行业共识但随着越来越多企业开始把 AI 部署到真实业务场景一个新的问题开始浮现。很多团队发现模型能力已经足够强可系统依然响应慢成本高吞吐低扩展困难问题出在哪里很多时候并不是模型不会推理而是系统无法承载推理于是行业开始进入一个新的阶段过去讨论的是Large Model未来讨论的是Large System因为决定 AI 上限的已经不再只是模型本身而是整个系统。一、为什么大模型不等于高性能很多人第一次接触 AI 时都会产生一个直觉模型越强系统越快。但现实往往恰恰相反例如responsemodel.generate(prompt)看起来只有一行代码但背后实际上经历Prompt处理 Tokenization KV Cache加载 GPU调度网络同步结果生成真正耗时的往往不是generate()本身而是数据准备状态管理资源调度于是现代 AI 系统经常出现一个现象GPU利用率不到50%但用户延迟依然很高因为性能瓶颈已经从Compute逐渐转向System二、性能问题为什么开始从模型转向系统在传统软件时代性能优化通常围绕算法复杂度展开例如O(n²)↓ O(n log n)系统立刻获得提升但 AI 系统不同。现代 AI 服务往往包含模型层缓存层向量数据库 Agent层工具层网络层例如一次 Agent 请求用户输入 ↓ Planner ↓ Memory ↓ Tool ↓ LLM ↓ Verifier ↓ 输出可能涉及数十次调用于是模型推理仅仅只是整个链路的一部分未来系统延迟越来越来自链路复杂度而不是模型复杂度三、长上下文让性能挑战发生质变过去4K Context已经很大今天128K 256K 1M Context正在成为趋势。问题在于长上下文带来的不仅仅是更多Token而是更多状态例如seq_len1000000hidden4096memory(seq_len*hidden*2)print(memory/1024/1024/1024)结果很容易达到数GB甚至数十GB于是GPU还没算满但显存已经满了性能问题开始从算不快变成存不下四、Agent系统为什么比模型更难优化过去的 AI问 ↓ 答一次请求结束状态销毁。但 Agent 不同Agent 会维护记忆计划执行状态历史任务例如classAgent:def__init__(self):self.memory[]self.tasks[]随着运行时间增长Memory越来越大系统复杂度持续增加于是性能问题开始变成状态管理问题而不是推理问题未来 Agent Runtime 的挑战越来越接近数据库而不是模型服务五、多Agent正在制造新的性能灾难未来越来越多系统开始采用Multi-Agent例如Planner Agent Coder Agent Research Agent Review Agent每个 Agent 都需要Context Memory State例如agents1000memory_per_agent100total_memory(agents*memory_per_agent)print(total_memory)结果100000 MB即100GB而且还没计算同步成本通信成本共享状态成本于是未来 AI 最大的问题很可能不是模型太慢而是Agent太多六、AI Runtime正在成为新的性能中心过去模型决定能力未来Runtime决定效率因为 Runtime 负责任务调度缓存管理状态管理资源管理例如classRuntime:defschedule(self):passdefallocate(self):passdefrecover(self):pass未来 Runtime 的重要性越来越像操作系统传统 OS 管理CPU Memory Process未来 Runtime 管理Agent State Model Context七、真正的瓶颈开始从Compute转向State过去性能问题计算问题未来性能问题状态问题因为 AI 正在拥有长期记忆持续推理多Agent协作自治执行这些能力都会带来海量状态于是State Throughput开始变得比Compute Throughput更重要未来很多系统的瓶颈可能不是GPU算不动而是状态搬不动八、为什么AI系统越来越像操作系统如果回顾整个演化过程。会发现传统软件管理代码云计算时代管理服务AI时代管理智能而管理智能的本质就是管理状态管理资源管理协作这与操作系统解决的问题高度相似因此未来很多 AI 平台最终都会演化成AI OS其核心职责不再是运行模型而是运行智能系统九、从大模型到大系统过去几年行业关注的是Model Scaling未来几年行业关注的将是System Scaling因为100B模型已经不再稀缺真正稀缺的是能够稳定运行100万Agent的系统未来企业竞争的关键能力越来越不是训练模型而是运营智能系统总结过去十年AI 行业经历的是模型革命核心问题是如何让模型更聪明未来十年AI 行业正在进入系统革命核心问题变成如何让智能持续运行因为当 AI 开始拥有长上下文长期记忆多Agent协作自治任务真正复杂的问题已经不再是模型如何推理而是系统如何承载推理所以从大模型到大系统AI 性能挑战正在发生一次根本性的迁移Compute Scaling ↓ Model Scaling ↓ System Scaling ↓ State Scaling未来决定 AI 上限的很可能不再是模型参数数量。而是谁能够构建一个稳定、高效、可扩展的智能运行系统。这场从“大模型”到“大系统”的演进或许才是 AI 基础设施真正的主战场。

5分钟完成黑苹果配置：OpCore-Simplify自动化工具完整指南

5分钟完成黑苹果配置：OpCore-Simplify自动化工具完整指南【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为复杂的黑苹果配置而烦恼吗…

2026/6/8 18:42:19 阅读更多

告别盲目优化：实战解析Nsight Compute中那些容易被忽略的Hardware Counters

告别盲目优化：实战解析Nsight Compute中那些容易被忽略的Hardware Counters 在CUDA性能优化的深水区，许多开发者往往止步于"知道瓶颈在哪"，却难以回答"为什么会出现这个瓶颈"。Nsight Compute的默认性能分析报告就像一张…

2026/6/8 18:42:19 阅读更多

Rufus终极指南：免费USB启动盘制作工具的完整实用教程

Rufus终极指南：免费USB启动盘制作工具的完整实用教程【免费下载链接】rufus The Reliable USB Formatting Utility 项目地址: https://gitcode.com/GitHub_Trending/ru/rufus 你是否曾为安装操作系统而烦恼？或者因为电脑缺少TPM 2.0芯片而无法升…

2026/6/8 18:41:58 阅读更多

别再死记硬背了！用一张图搞定Flink核心概念与学习路线（附高清知识图谱）

视觉化学习Flink：一张图构建流处理知识体系第一次打开Flink官方文档时，满屏的DataStream API、状态后端、Watermark等术语像潮水般涌来，这大概是许多开发者的共同体验。传统技术学习路径往往要求我们逐个击破这些概念，但缺乏全局视…

2026/6/9 1:36:01 阅读更多

从零搭建企业网：手把手教你用eNSP模拟千人校园网络规划（含防火墙、NAT配置）

从零搭建企业网：手把手教你用eNSP模拟千人校园网络规划（含防火墙、NAT配置）当第一次接触企业级网络规划时，很多人会被复杂的拓扑结构和专业术语吓退。但事实上，只要掌握核心设计思路和关键配置技巧，即使是千…

2026/6/9 1:36:01 阅读更多

卡梅德生物技术快报｜噬菌体筛选：技术实操：宽谱大肠杆菌噬菌体筛选全流程与性能验证方案

在微生物抗菌技术研发领域，针对耐药性致病菌的噬菌体研发是当下热门方向。畜禽源大肠杆菌耐药性逐年加剧，常规抗菌方案失效，促使行业加大对裂解性噬菌体的研发投入。而宿主谱狭窄是天然噬菌体的共性技术痛点，这就要求研发人员建立…

2026/6/9 1:36:01 阅读更多

Apache Thrift：轻量级跨语言 RPC 框架

文章目录Apache Thrift：轻量级跨语言 RPC 框架Apache Thrift：轻量级跨语言 RPC 框架 Apache 基金会旗下的 Thrift 项目，在 GitHub 上收获了 10,926 个 Star： Thrift 是一个轻量级、语言无关的软件栈，用于实现点对点 R…

2026/6/9 1:34:23 阅读更多

JavaScript DOM操作实战精华手册

以下是一个结构清晰的 JavaScript DOM 核心操作实战指南：一、内容操作获取与修改元素内容// 获取元素内容 const content element.innerHTML; // 带 HTML 标签 const text element.textContent; // 纯文本// 修改内容 element.innerHTML "<strong>新…

2026/6/9 1:34:23 阅读更多

磁盘的添加及其操作

1.磁盘添加右键点击虚拟机，点击设置点击添加，选择磁盘，点下一步进入后按需求选择配置就行，添加完后要点击“确定”2.磁盘分区lsblk : 查看磁盘信息（可以查看我们有哪些磁盘及属性）fdisk ：操作磁…

2026/6/9 1:33:43 阅读更多

5分钟上手：BilibiliDown——你的B站视频下载全能助手

5分钟上手：BilibiliDown——你的B站视频下载全能助手【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi…

2026/6/9 0:00:38 阅读更多

【AI】服务化部署：把AI Agent变成API服务

服务化部署：把AI Agent变成API服务📝 本章学习目标：本章聚焦安全与工程化，确保AI Agent稳定可靠运行。通过本章学习，你将全面掌握"服务化部署：把AI Agent变成API服务"这一核心主题。一、引言&…

2026/6/9 0:01:41 阅读更多

Playnite：一站式游戏库管理器，告别多平台切换烦恼

Playnite：一站式游戏库管理器，告别多平台切换烦恼【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地…

2026/6/9 0:01:41 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/9 0:23:00 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/9 0:23:12 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/9 0:15:30 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/8 9:43:25 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/8 9:43:23 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/8 9:43:30 阅读更多

相关文章

5分钟完成黑苹果配置：OpCore-Simplify自动化工具完整指南

告别盲目优化：实战解析Nsight Compute中那些容易被忽略的Hardware Counters

Rufus终极指南：免费USB启动盘制作工具的完整实用教程

别再死记硬背了！用一张图搞定Flink核心概念与学习路线（附高清知识图谱）

从零搭建企业网：手把手教你用eNSP模拟千人校园网络规划（含防火墙、NAT配置）

卡梅德生物技术快报｜噬菌体筛选：技术实操：宽谱大肠杆菌噬菌体筛选全流程与性能验证方案

Apache Thrift：轻量级跨语言 RPC 框架

JavaScript DOM操作实战精华手册

磁盘的添加及其操作

5分钟上手：BilibiliDown——你的B站视频下载全能助手

【AI】服务化部署：把AI Agent变成API服务

Playnite：一站式游戏库管理器，告别多平台切换烦恼

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因