关键判断
第一,模型多大:是 7B、14B、32B 还是 70B 级,用什么量化精度。第二,多少人用:是个人验证、部门内几十人,还是要对外提供服务,并发和上下文长...
推理时模型权重要常驻显存,量级大约是参数量乘以每参数字节数:FP16 约 2 字节、INT8 约 1 字节、INT4 约 0.5 字节。以此粗估,7B ...
每一路并发请求都会产生 KV cache 等运行时占用,上下文越长、并发越多,这部分越大,长上下文场景甚至可能超过权重本身。个人验证和几十人共用的配置方...
这篇文章适合解决什么问题?
正在判断专业软件、数据规模、配置投入顺序和交付条件的采购、IT 或技术负责人。
把关键软件版本、用户人数、模型或数据规模整理出来,再进入配置清单或方案咨询。
AI GPU 服务器配置检查表 / AI GPU 服务器选型白皮书 2026
部署前先回答三个问题
第一,模型多大:是 7B、14B、32B 还是 70B 级,用什么量化精度。第二,多少人用:是个人验证、部门内几十人,还是要对外提供服务,并发和上下文长度直接决定显存放大倍数。第三,数据边界:资料能不能出内网。三个问题没答清楚之前,讨论具体显卡型号意义不大。
参数量和量化决定显存下限
推理时模型权重要常驻显存,量级大约是参数量乘以每参数字节数:FP16 约 2 字节、INT8 约 1 字节、INT4 约 0.5 字节。以此粗估,7B 级模型 FP16 权重约十几 GB,INT4 可以压到数 GB;70B 级模型即使 INT4 也要数十 GB,通常已超出单卡,需要多卡或多机。这只是权重部分的下限,还没算推理过程的动态开销,实际占用需按框架和项目实测确认。
并发和上下文会放大显存需求
每一路并发请求都会产生 KV cache 等运行时占用,上下文越长、并发越多,这部分越大,长上下文场景甚至可能超过权重本身。个人验证和几十人共用的配置方向完全不同。估算方法见我们的另一篇文章《大模型推理显存怎么估》,这里先给结论:并发场景务必在权重下限之上预留成倍余量,具体倍数按业务实测确定。
三种落地形态:高显存工作站、单机多卡、多机
小参数量模型、低并发的个人或小组验证,可以从高显存工作站起步,放在工位旁即可;部门级服务、中等参数量模型,一般进入单机多卡 GPU 服务器的范围,要开始考虑机房或至少独立空间;70B 级全量模型或高并发服务,往往要评估多机和更高速的互联。对应到英睿特产品线,分别可以从 Z 系列高性能工作站、G 系列 GPU 计算服务器和 T 系列 AI 训练服务器的方向去比较,具体以官网公开资料和最终方案为准。
显卡之外:CPU、内存、NVMe 和网络
推理服务不是只有显卡在工作。系统内存建议不低于显存总量,用于模型加载和运行时缓冲;NVMe 盘影响模型切换和冷启动速度;如果做 RAG,还要给向量库和文档处理留出 CPU 和内存;对外服务则要核对网络带宽和延迟。这些配比没有唯一答案,需按实际负载确认。
常见误判
一是只看显存容量不看显存带宽和卡间互联,多卡方案里后两者经常才是瓶颈;二是把训练机的思路直接搬到推理场景,为用不上的互联和扩展性付费;三是忽略供电散热,多卡服务器满载功耗和噪音都不适合普通办公环境;四是相信某配置一定能跑某模型的说法,实际能不能跑、跑到什么效果,取决于量化、框架、并发和上下文,需要按项目实测。
下一步怎么走
把模型参数量、量化打算、使用人数、上下文长度、数据边界、部署位置和预算口径写清楚,就可以进入配置初筛。可以先用页面上的 AI 配置顾问按这几个条件过一遍,得到一个初步方向;需要正式方案时提交项目需求,提交后由方案工程师继续确认配置、含税预算与交付范围。

