省流版推理部署的GPU选型取决于模型规模与并发量。7B-14B模型单卡RTX 5090或A100即可胜任70B模型需H100/H200或量化后单卡运行高并发场景推荐vLLM 多卡集群。一、推理与训练硬件需求的方向性差异推理是只读任务训练是读写任务。这个本质差异决定了硬件选型逻辑完全不同。显存占用对比训练时GPU需同时存储模型参数、梯度、优化器状态和激活值显存消耗通常是推理的3-4倍。推理时模型处于只读状态显存主要消耗在三个部分模型权重、KV Cache、激活值。带宽与算力的优先级推理更看重显存带宽训练更看重算力密度。Token生成速度尤其是自回归解码阶段受限于显存带宽——每生成一个token都需要从显存读取全部模型权重。以H200与H100为例H200的4.8 TB/s带宽比H100的3.35 TB/s高出约43%在推理吞吐上的提升非常明显。并发量决定集群规模单用户低延迟推理一张高端卡足够服务100个并发用户则需要多卡集群配合负载均衡。二、显存需求怎么算别只盯着模型权重一个安全的估算公式总显存需求 ≈ 模型权重 KV Cache 激活值 框架开销 余量缓冲模型权重计算模型权重 参数量 × 精度字节数。FP16/BF16为2字节/参数INT8为1字节INT4为0.5字节。特别说明MoE模型的特殊性对于DeepSeek-V3等MoE混合专家架构模型总参数量≠推理时的权重显存。每次推理只激活部分专家。以671B总参数的模型为例实际激活参数约37BFP8精度下权重部分约占用37GB加上共享参数和冗余单卡H200或2-4卡集群即可运行。务必区分“总参数”和“激活参数”避免显存估算严重偏高。KV Cache推理中的隐形消耗KV Cache随序列长度和并发请求数线性增长。长上下文场景下KV Cache可能超过模型权重本身。以Llama 3 70B为例该模型使用了GQA分组查询注意力KV头数远少于注意力头数有效降低了KV Cache占用在32K上下文、batch_size16时KV Cache可达约80GB。实际值受模型的注意力头数、KV头数、是否启用GQA/MQA等因素影响部署前建议用工具精确测算。安全余量建议在模型权重基础上乘以1.2-1.5倍用于覆盖KV Cache、激活值和框架开销。单batch低并发推理取1.2-1.3倍即可高并发或超长上下文场景需按KV Cache单独估算1.5倍可能仍不够。模型推理显存参考模型规模FP16权重INT8权重INT4权重推荐显存FP16推荐显存INT47B14GB7GB3.5GB18-21GB5-7GB13B26GB13GB6.5GB34-39GB9-12GB70B140GB70GB35GB182-210GB46-53GB671B MoE激活37BFP16约74GB约671GB约336GB8×H200集群需多卡量化说明MoE模型推荐显存基于DeepSeek-V3等“总参数671B、激活37B”的架构。其他MoE模型如Mixtral 8×7B激活参数比例不同需另行计算。消费级显卡的可行性RTX 5090的32GB GDDR7显存在INT4量化下可以流畅运行14B模型RTX 6000 Ada的48GB显存可以跑70B INT4量化模型。对于开发测试和轻量API服务消费级卡完全够用。三、按场景匹配推理GPU选型实操场景一轻量推理 / 开发测试7B-14B模型推荐卡型RTX 5090 32GB、A100 80GB7B模型FP16推理约需14GB显存加上KV Cache和余量18-21GB足够。RTX 5090的32GB显存不仅能跑7B FP16还能跑14B INT4。成本参考按小时计费RTX 5090约2.98元/时立方云2026年6月价格具体以平台为准适合个人开发者做API服务原型验证。场景二企业级中等规模推理30B-70B模型推荐卡型H100 80GB、H200 141GB、H20 96GB70B模型FP16推理需要约140GB显存单卡H100 80GB不够必须多卡并行或量化。H200的141GB显存可以单卡容纳70B FP16模型是推理场景的甜点卡。性价比之选H20 96GB显存带宽4.0 TB/s高于H100的3.35 TB/s推理场景下带宽优势明显。足够跑70B INT8约70GB开销按时单价约6.95元/时立方云2026年6月价格具体以平台为准比H100更经济。场景三高并发 / 大模型服务70B / 多用户推荐卡型8×H100/H200集群、B200多用户并发场景下KV Cache会随并发数和上下文长度线性增长总量可能远超模型权重本身。8×H200 SXM5集群总显存1,128GB可支撑70B模型高并发服务或671B MoE模型如DeepSeek V3FP8精度的单机多卡推理。框架层标配vLLM PagedAttention。相比传统静态分配vLLM的PagedAttention能将KV Cache碎片化减少20%-30%吞吐量提升2-4倍。部署时建议开启 --enable-prefix-caching 进一步降低重复prompt的显存占用。四、三个降低推理成本的实用技术1. 量化最直接的显存压缩INT8量化节省50%显存质量损失几乎不可感知。推荐工具LLM.int8()、SmoothQuant。INT4AWQ/GPTQ节省75%显存适合消费级显卡部署。AWQ对激活值感知更优GPTQ兼容性更广。FP8Hopper/Blackwell架构原生支持质量接近FP16吞吐量提升约2倍。注意FP8需要模型原生支持或校准部分开源模型可能需要额外适配。2. vLLM替代原生PyTorch推理vLLM的PagedAttention和Continuous Batching能将GPU利用率从30%-50%提升到80%以上。同样的硬件能服务更多并发用户。关键参数建议--tensor-parallel-size多卡推理时按注意力头数均分通常支持1、2、4、8--max-model-len根据业务需求设定避免过长上下文浪费显存。遇到OOM时优先缩减此参数--gpu-memory-utilization建议设为0.85-0.9留足余量防止OOM3. 控制max_model_len最大上下文长度KV Cache与序列长度成正比。将上下文从128K缩减到8K可释放大量显存。这是解决OOM的第一手段优先于加卡。最后立方云提供从单卡到8卡集群的多种GPU配置适配不同规模的推理部署需求。镜像市场预装vLLM、TensorRT-LLM、PyTorch等主流推理框架支持开箱即用的模型服务部署。8卡A100/H100集群支持NVLink高速互联适合多卡推理部署。立方云是网鼎科技旗下专注GPU算力租赁的平台提供裸金属与容器实例服务。如需体验请访问 lifangyun.com。
AI模型推理部署GPU选型指南:从7B到671B的显存与成本测算
发布时间:2026/7/4 3:50:21
省流版推理部署的GPU选型取决于模型规模与并发量。7B-14B模型单卡RTX 5090或A100即可胜任70B模型需H100/H200或量化后单卡运行高并发场景推荐vLLM 多卡集群。一、推理与训练硬件需求的方向性差异推理是只读任务训练是读写任务。这个本质差异决定了硬件选型逻辑完全不同。显存占用对比训练时GPU需同时存储模型参数、梯度、优化器状态和激活值显存消耗通常是推理的3-4倍。推理时模型处于只读状态显存主要消耗在三个部分模型权重、KV Cache、激活值。带宽与算力的优先级推理更看重显存带宽训练更看重算力密度。Token生成速度尤其是自回归解码阶段受限于显存带宽——每生成一个token都需要从显存读取全部模型权重。以H200与H100为例H200的4.8 TB/s带宽比H100的3.35 TB/s高出约43%在推理吞吐上的提升非常明显。并发量决定集群规模单用户低延迟推理一张高端卡足够服务100个并发用户则需要多卡集群配合负载均衡。二、显存需求怎么算别只盯着模型权重一个安全的估算公式总显存需求 ≈ 模型权重 KV Cache 激活值 框架开销 余量缓冲模型权重计算模型权重 参数量 × 精度字节数。FP16/BF16为2字节/参数INT8为1字节INT4为0.5字节。特别说明MoE模型的特殊性对于DeepSeek-V3等MoE混合专家架构模型总参数量≠推理时的权重显存。每次推理只激活部分专家。以671B总参数的模型为例实际激活参数约37BFP8精度下权重部分约占用37GB加上共享参数和冗余单卡H200或2-4卡集群即可运行。务必区分“总参数”和“激活参数”避免显存估算严重偏高。KV Cache推理中的隐形消耗KV Cache随序列长度和并发请求数线性增长。长上下文场景下KV Cache可能超过模型权重本身。以Llama 3 70B为例该模型使用了GQA分组查询注意力KV头数远少于注意力头数有效降低了KV Cache占用在32K上下文、batch_size16时KV Cache可达约80GB。实际值受模型的注意力头数、KV头数、是否启用GQA/MQA等因素影响部署前建议用工具精确测算。安全余量建议在模型权重基础上乘以1.2-1.5倍用于覆盖KV Cache、激活值和框架开销。单batch低并发推理取1.2-1.3倍即可高并发或超长上下文场景需按KV Cache单独估算1.5倍可能仍不够。模型推理显存参考模型规模FP16权重INT8权重INT4权重推荐显存FP16推荐显存INT47B14GB7GB3.5GB18-21GB5-7GB13B26GB13GB6.5GB34-39GB9-12GB70B140GB70GB35GB182-210GB46-53GB671B MoE激活37BFP16约74GB约671GB约336GB8×H200集群需多卡量化说明MoE模型推荐显存基于DeepSeek-V3等“总参数671B、激活37B”的架构。其他MoE模型如Mixtral 8×7B激活参数比例不同需另行计算。消费级显卡的可行性RTX 5090的32GB GDDR7显存在INT4量化下可以流畅运行14B模型RTX 6000 Ada的48GB显存可以跑70B INT4量化模型。对于开发测试和轻量API服务消费级卡完全够用。三、按场景匹配推理GPU选型实操场景一轻量推理 / 开发测试7B-14B模型推荐卡型RTX 5090 32GB、A100 80GB7B模型FP16推理约需14GB显存加上KV Cache和余量18-21GB足够。RTX 5090的32GB显存不仅能跑7B FP16还能跑14B INT4。成本参考按小时计费RTX 5090约2.98元/时立方云2026年6月价格具体以平台为准适合个人开发者做API服务原型验证。场景二企业级中等规模推理30B-70B模型推荐卡型H100 80GB、H200 141GB、H20 96GB70B模型FP16推理需要约140GB显存单卡H100 80GB不够必须多卡并行或量化。H200的141GB显存可以单卡容纳70B FP16模型是推理场景的甜点卡。性价比之选H20 96GB显存带宽4.0 TB/s高于H100的3.35 TB/s推理场景下带宽优势明显。足够跑70B INT8约70GB开销按时单价约6.95元/时立方云2026年6月价格具体以平台为准比H100更经济。场景三高并发 / 大模型服务70B / 多用户推荐卡型8×H100/H200集群、B200多用户并发场景下KV Cache会随并发数和上下文长度线性增长总量可能远超模型权重本身。8×H200 SXM5集群总显存1,128GB可支撑70B模型高并发服务或671B MoE模型如DeepSeek V3FP8精度的单机多卡推理。框架层标配vLLM PagedAttention。相比传统静态分配vLLM的PagedAttention能将KV Cache碎片化减少20%-30%吞吐量提升2-4倍。部署时建议开启 --enable-prefix-caching 进一步降低重复prompt的显存占用。四、三个降低推理成本的实用技术1. 量化最直接的显存压缩INT8量化节省50%显存质量损失几乎不可感知。推荐工具LLM.int8()、SmoothQuant。INT4AWQ/GPTQ节省75%显存适合消费级显卡部署。AWQ对激活值感知更优GPTQ兼容性更广。FP8Hopper/Blackwell架构原生支持质量接近FP16吞吐量提升约2倍。注意FP8需要模型原生支持或校准部分开源模型可能需要额外适配。2. vLLM替代原生PyTorch推理vLLM的PagedAttention和Continuous Batching能将GPU利用率从30%-50%提升到80%以上。同样的硬件能服务更多并发用户。关键参数建议--tensor-parallel-size多卡推理时按注意力头数均分通常支持1、2、4、8--max-model-len根据业务需求设定避免过长上下文浪费显存。遇到OOM时优先缩减此参数--gpu-memory-utilization建议设为0.85-0.9留足余量防止OOM3. 控制max_model_len最大上下文长度KV Cache与序列长度成正比。将上下文从128K缩减到8K可释放大量显存。这是解决OOM的第一手段优先于加卡。最后立方云提供从单卡到8卡集群的多种GPU配置适配不同规模的推理部署需求。镜像市场预装vLLM、TensorRT-LLM、PyTorch等主流推理框架支持开箱即用的模型服务部署。8卡A100/H100集群支持NVLink高速互联适合多卡推理部署。立方云是网鼎科技旗下专注GPU算力租赁的平台提供裸金属与容器实例服务。如需体验请访问 lifangyun.com。