关键判断
第一部分是模型权重,加载后常驻显存,大小基本固定;第二部分是 KV cache,随上下文长度和并发路数线性增长,是并发服务的主要变量;第三部分是框架和 ...
估算权重显存的通用逻辑是参数量乘以每参数字节数:FP16/BF16 约 2 字节,INT8 约 1 字节,INT4 约 0.5 字节。例如 7B 参数模...
KV cache 缓存推理过程中每一层的键值向量,占用随序列长度、并发路数、模型层数和精度一起增长。粗略地说,上下文翻倍、并发翻倍,这部分占用都接近翻倍...
这篇文章适合解决什么问题?
正在判断专业软件、数据规模、配置投入顺序和交付条件的采购、IT 或技术负责人。
把关键软件版本、用户人数、模型或数据规模整理出来,再进入配置清单或方案咨询。
AI GPU 服务器配置检查表 / AI GPU 服务器选型白皮书 2026
显存账由三部分组成
第一部分是模型权重,加载后常驻显存,大小基本固定;第二部分是 KV cache,随上下文长度和并发路数线性增长,是并发服务的主要变量;第三部分是框架和 CUDA 运行开销、显存碎片等,通常按一成到两成余量预留。很多部署翻车不是权重放不下,而是低估了后两部分。
权重:参数量乘以每参数字节数
估算权重显存的通用逻辑是参数量乘以每参数字节数:FP16/BF16 约 2 字节,INT8 约 1 字节,INT4 约 0.5 字节。例如 7B 参数模型,FP16 权重约 14GB 量级,INT8 约 7GB 量级,INT4 约 3.5GB 量级。注意这是权重本身的量级估算,不含任何运行开销,不同框架的实际加载占用会有出入,以实测为准。
KV cache:上下文和并发的放大项
KV cache 缓存推理过程中每一层的键值向量,占用随序列长度、并发路数、模型层数和精度一起增长。粗略地说,上下文翻倍、并发翻倍,这部分占用都接近翻倍。长文档问答、RAG 拼接长上下文的场景,KV cache 可能追上甚至超过权重占用。它的具体数值和模型结构、框架实现强相关,建议用目标框架小规模实测后再外推。
为什么必须留余量
显存碎片、框架开销、峰值请求叠加、模型切换的临时占用,都会吃掉纸面剩余。经验做法是:单人验证场景在权重之上留三成,低并发服务留一倍上下,高并发或长上下文服务按实测峰值再加余量。把显存卡在刚好够的边界上,换来的是偶发的 OOM 和难排查的服务抖动。
三个演示算例
以下算例只演示估算逻辑,不构成任何配置承诺。算例一:7B 模型、INT4、单人短上下文验证,权重约 3.5GB 量级,留足余量后主流显存的显卡即可起步。算例二:32B 模型、INT4、部门内低并发,权重约 16GB 量级,加 KV cache 和余量后已接近或超过单张消费级显卡的显存,需要评估高显存专业卡或双卡。算例三:70B 模型、INT4、多人服务,权重约 35GB 量级,叠加并发后一般进入多卡服务器范围。每个算例落到具体型号时,都需按项目实测确认。
估完显存还没完:带宽与互联
显存容量决定放不放得下,显存带宽和卡间互联决定跑得快不快。生成式推理对显存带宽敏感,多卡拆分模型时卡间通信可能成为瓶颈。两张显存够用但互联偏弱的卡,未必好过一张高显存的卡。容量、带宽、互联要放在一起判断,这一步建议交给方案评估而不是只看参数表。
让估算落到配置
把模型参数量、量化精度、上下文长度、并发预期四个数写出来,就可以用页面上的 AI 配置顾问核一遍显存账,得到初筛方向。需要正式方案时提交项目需求,提交后由方案工程师继续确认配置、含税预算与交付范围。

