子玥酱掘金 / 知乎 / CSDN / 简书 同名大家好我是子玥酱一名长期深耕在一线的前端程序媛 。曾就职于多家知名互联网大厂目前在某国企负责前端软件研发相关工作主要聚焦于业务型系统的工程化建设与长期维护。我持续输出和沉淀前端领域的实战经验日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。技术方向前端 / 跨端 / 小程序 / 移动端工程化内容平台掘金、知乎、CSDN、简书创作特点实战导向、源码拆解、少空谈多落地文章状态长期稳定更新大量原创输出我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍希望能帮你在实际工作中少走弯路。子玥酱 · 前端成长记录官 ✨ 如果你正在做前端或准备长期走前端这条路 关注我第一时间获取前端行业趋势与实践总结 可领取11 类前端进阶学习资源工程化 / 框架 / 跨端 / 面试 / 架构 一起把技术学“明白”也用“到位”持续写作持续进阶。愿我们都能在代码和生活里走得更稳一点 文章目录引言一、AI 公司最大的支出已经不是训练二、真正烧钱的不是参数而是 Token三、为什么用户越多反而越亏钱四、Agent 正在放大推理成本五、长上下文成为新的成本黑洞六、GPU 利用率低却依然很贵七、为什么 AI Infra 比模型更重要八、真正赚钱的公司都在优化每一个 Token总结引言最近两年AI 创业圈出现了一个越来越明显的现象。很多公司融资越来越多。但是收入越来越高 利润越来越低甚至有不少 AI 创业公司发现用户越多 亏损越大看起来十分反常。互联网时代我们经常听到的是用户增长 ↓ 规模效应 ↓ 成本下降但到了大模型时代事情开始发生变化。很多 AI 产品上线之后成本曲线变成了用户增长 ↓ GPU需求增长 ↓ 推理成本增长 ↓ 利润下降于是整个 AI 行业开始讨论一个新的问题真正限制 AI 商业化的已经不是模型能力而是推理成本。今天我们就从 AI Infra 的角度聊聊为什么推理成本正在成为 AI 创业公司最大的生存挑战一、AI 公司最大的支出已经不是训练很多人认为大模型最烧钱的是训练。例如GPT DeepSeek Qwen Llama训练一次几百万美元 甚至上亿美元听起来非常昂贵但如果把时间拉长你会发现训练 一次完成而推理 每天都在发生假设一家 AI 公司拥有100 万日活用户每人每天调用模型20 次那么一天需要完成2000 万次推理一年下来超过 70 亿次请求很多企业最终发现累计推理成本 远远超过训练成本于是行业开始流传一句话Train OnceInfer Forever。二、真正烧钱的不是参数而是 Token很多人觉得70B 模型 一定比 7B 贵。其实并不完全正确真正决定成本的是生成多少 Token例如用户问你好模型回答你好可能只生成10 个 Token而另一个用户要求请写一篇一万字的行业分析。模型可能需要生成上万个 Token对于 GPU 来说每生成一个 Token 都需要执行一次 Decoder。因此Token 越多 GPU 占用时间越长所以推理系统真正计费单位其实更像GPU 时间 × Token 数量而不是模型参数。三、为什么用户越多反而越亏钱互联网产品有一个经典规律用户越多 单位成本越低例如视频网站。增加一万个用户CDN 成本 不会增加一万倍因为缓存可以共享但是 AI 不一样每一个用户都有自己的Prompt Context KV Cache例如用户 A翻译论文用户 B生成 PPT用户 C编写代码三个人的上下文完全不同意味着KV Cache 无法共享于是用户增加 ↓ 显存增加 ↓ GPU 增加 ↓ 成本同步增加规模效应第一次失灵。四、Agent 正在放大推理成本如果只是聊天机器人一次请求输入 ↓ 回答 结束成本相对可控但是 Agent 不一样。例如用户 帮我规划一次日本旅行。Agent 可能执行理解需求 ↓ 制定计划 ↓ 搜索酒店 ↓ 查询天气 ↓ 调用地图 ↓ 比较价格 ↓ 整理结果整个过程几十次模型调用甚至上百次推理对于用户来说只是一个问题但后台已经消耗了大量 GPU 时间Agent 越智能推理成本往往越高。五、长上下文成为新的成本黑洞今天越来越多模型支持128K 256K 1M Context看起来体验越来越好但从系统角度来看上下文越长。意味着KV Cache 越大例如一个普通聊天8K Context可能只需要几百 MB 显存而128K Context可能需要数 GB如果1000 个用户同时在线GPU 很快就会被KV Cache完全占满很多企业最终发现 GPU 不是算满的。而是显存先满了。六、GPU 利用率低却依然很贵很多公司看到监控时都会疑惑GPU 利用率 只有 30%为什么费用还是这么高原因在于推理阶段并不是一直计算。GPU 很多时间都在等待KV Cache 网络通信 Token 输出虽然SM 没有满载但是GPU 依然被独占。对于云厂商来说占用 GPU 就需要付费。因此GPU Utilization ≠ GPU Cost七、为什么 AI Infra 比模型更重要过去几年很多创业公司的核心竞争力是训练模型现在越来越多团队发现真正决定盈利能力的是推理系统例如同样部署Llama Qwen DeepSeek不同团队的成本可能相差25 倍原因就在于是否采用Continuous Batching PagedAttention FlashAttention PD Separation Speculative Decoding Quantization这些技术决定了同一张 GPU 能够服务多少用户。因此越来越多 AI 公司开始把资源投入Runtime Inference Engine Scheduler而不仅仅是模型训练。八、真正赚钱的公司都在优化每一个 Token过去 AI 公司竞争的是谁模型更大。今天竞争开始变成谁每秒生成更多 Token。 谁每美元生成更多 Token。例如同样一张 GPU。公司 A100 Token/s公司 B300 Token/s即使模型能力接近后者的利润空间也会高得多。因此未来 AI 创业公司的竞争很可能不是Model First而是Inference First总结如果用一句话解释为什么推理成本正在杀死 AI 创业公司答案其实很简单因为训练是一笔一次性的投入而推理是一项会随着用户规模持续增长的长期运营成本。从工程角度来看推理成本主要来自几个方面GPU 占用时间 Token 数量 KV Cache 显存 长上下文 高并发请求 Agent 多轮推理 GPU 利用率不足过去十年AI 行业竞争的是谁拥有更大的模型。未来十年竞争的核心将逐渐变成谁拥有更高效的推理系统。因为对于一家 AI 创业公司来说模型决定产品的能力上限而推理效率决定公司的盈利下限。未来真正能够活下来的企业未必拥有最大的模型但一定拥有最低的单位 Token 成本、最高的 GPU 利用率以及最优秀的 AI Runtime 与推理基础设施。
推理成本正在杀死 AI 创业公司?
发布时间:2026/6/27 15:11:38
子玥酱掘金 / 知乎 / CSDN / 简书 同名大家好我是子玥酱一名长期深耕在一线的前端程序媛 。曾就职于多家知名互联网大厂目前在某国企负责前端软件研发相关工作主要聚焦于业务型系统的工程化建设与长期维护。我持续输出和沉淀前端领域的实战经验日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。技术方向前端 / 跨端 / 小程序 / 移动端工程化内容平台掘金、知乎、CSDN、简书创作特点实战导向、源码拆解、少空谈多落地文章状态长期稳定更新大量原创输出我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍希望能帮你在实际工作中少走弯路。子玥酱 · 前端成长记录官 ✨ 如果你正在做前端或准备长期走前端这条路 关注我第一时间获取前端行业趋势与实践总结 可领取11 类前端进阶学习资源工程化 / 框架 / 跨端 / 面试 / 架构 一起把技术学“明白”也用“到位”持续写作持续进阶。愿我们都能在代码和生活里走得更稳一点 文章目录引言一、AI 公司最大的支出已经不是训练二、真正烧钱的不是参数而是 Token三、为什么用户越多反而越亏钱四、Agent 正在放大推理成本五、长上下文成为新的成本黑洞六、GPU 利用率低却依然很贵七、为什么 AI Infra 比模型更重要八、真正赚钱的公司都在优化每一个 Token总结引言最近两年AI 创业圈出现了一个越来越明显的现象。很多公司融资越来越多。但是收入越来越高 利润越来越低甚至有不少 AI 创业公司发现用户越多 亏损越大看起来十分反常。互联网时代我们经常听到的是用户增长 ↓ 规模效应 ↓ 成本下降但到了大模型时代事情开始发生变化。很多 AI 产品上线之后成本曲线变成了用户增长 ↓ GPU需求增长 ↓ 推理成本增长 ↓ 利润下降于是整个 AI 行业开始讨论一个新的问题真正限制 AI 商业化的已经不是模型能力而是推理成本。今天我们就从 AI Infra 的角度聊聊为什么推理成本正在成为 AI 创业公司最大的生存挑战一、AI 公司最大的支出已经不是训练很多人认为大模型最烧钱的是训练。例如GPT DeepSeek Qwen Llama训练一次几百万美元 甚至上亿美元听起来非常昂贵但如果把时间拉长你会发现训练 一次完成而推理 每天都在发生假设一家 AI 公司拥有100 万日活用户每人每天调用模型20 次那么一天需要完成2000 万次推理一年下来超过 70 亿次请求很多企业最终发现累计推理成本 远远超过训练成本于是行业开始流传一句话Train OnceInfer Forever。二、真正烧钱的不是参数而是 Token很多人觉得70B 模型 一定比 7B 贵。其实并不完全正确真正决定成本的是生成多少 Token例如用户问你好模型回答你好可能只生成10 个 Token而另一个用户要求请写一篇一万字的行业分析。模型可能需要生成上万个 Token对于 GPU 来说每生成一个 Token 都需要执行一次 Decoder。因此Token 越多 GPU 占用时间越长所以推理系统真正计费单位其实更像GPU 时间 × Token 数量而不是模型参数。三、为什么用户越多反而越亏钱互联网产品有一个经典规律用户越多 单位成本越低例如视频网站。增加一万个用户CDN 成本 不会增加一万倍因为缓存可以共享但是 AI 不一样每一个用户都有自己的Prompt Context KV Cache例如用户 A翻译论文用户 B生成 PPT用户 C编写代码三个人的上下文完全不同意味着KV Cache 无法共享于是用户增加 ↓ 显存增加 ↓ GPU 增加 ↓ 成本同步增加规模效应第一次失灵。四、Agent 正在放大推理成本如果只是聊天机器人一次请求输入 ↓ 回答 结束成本相对可控但是 Agent 不一样。例如用户 帮我规划一次日本旅行。Agent 可能执行理解需求 ↓ 制定计划 ↓ 搜索酒店 ↓ 查询天气 ↓ 调用地图 ↓ 比较价格 ↓ 整理结果整个过程几十次模型调用甚至上百次推理对于用户来说只是一个问题但后台已经消耗了大量 GPU 时间Agent 越智能推理成本往往越高。五、长上下文成为新的成本黑洞今天越来越多模型支持128K 256K 1M Context看起来体验越来越好但从系统角度来看上下文越长。意味着KV Cache 越大例如一个普通聊天8K Context可能只需要几百 MB 显存而128K Context可能需要数 GB如果1000 个用户同时在线GPU 很快就会被KV Cache完全占满很多企业最终发现 GPU 不是算满的。而是显存先满了。六、GPU 利用率低却依然很贵很多公司看到监控时都会疑惑GPU 利用率 只有 30%为什么费用还是这么高原因在于推理阶段并不是一直计算。GPU 很多时间都在等待KV Cache 网络通信 Token 输出虽然SM 没有满载但是GPU 依然被独占。对于云厂商来说占用 GPU 就需要付费。因此GPU Utilization ≠ GPU Cost七、为什么 AI Infra 比模型更重要过去几年很多创业公司的核心竞争力是训练模型现在越来越多团队发现真正决定盈利能力的是推理系统例如同样部署Llama Qwen DeepSeek不同团队的成本可能相差25 倍原因就在于是否采用Continuous Batching PagedAttention FlashAttention PD Separation Speculative Decoding Quantization这些技术决定了同一张 GPU 能够服务多少用户。因此越来越多 AI 公司开始把资源投入Runtime Inference Engine Scheduler而不仅仅是模型训练。八、真正赚钱的公司都在优化每一个 Token过去 AI 公司竞争的是谁模型更大。今天竞争开始变成谁每秒生成更多 Token。 谁每美元生成更多 Token。例如同样一张 GPU。公司 A100 Token/s公司 B300 Token/s即使模型能力接近后者的利润空间也会高得多。因此未来 AI 创业公司的竞争很可能不是Model First而是Inference First总结如果用一句话解释为什么推理成本正在杀死 AI 创业公司答案其实很简单因为训练是一笔一次性的投入而推理是一项会随着用户规模持续增长的长期运营成本。从工程角度来看推理成本主要来自几个方面GPU 占用时间 Token 数量 KV Cache 显存 长上下文 高并发请求 Agent 多轮推理 GPU 利用率不足过去十年AI 行业竞争的是谁拥有更大的模型。未来十年竞争的核心将逐渐变成谁拥有更高效的推理系统。因为对于一家 AI 创业公司来说模型决定产品的能力上限而推理效率决定公司的盈利下限。未来真正能够活下来的企业未必拥有最大的模型但一定拥有最低的单位 Token 成本、最高的 GPU 利用率以及最优秀的 AI Runtime 与推理基础设施。