返回知识库
AI

DeepSeek 类开源大模型本地部署:按参数量和并发估算服务器配置

本地部署开源大模型的配置估算,应从模型参数量、量化方式、并发人数和上下文长度出发,先算显存下限,再定单机高显存、单机多卡还是多机方向,最后核对内存、NVMe、网络和机房条件。具体型号和参数需按项目确认。

阅读时间:10 分钟 技术知识库
提交配置需求
本地部署大模型推理GPU服务器
本地部署开源大模型的服务器配置估算
AI10 分钟
Read Outcome

读完这篇文章,应能形成三个判断。

这篇内容会帮助采购、IT 和使用团队更快对齐同一套判断。

配置优先级

知道当前工作负载先看 CPU、GPU、内存、存储还是交付环境。

沟通资料

知道需要带着哪些软件、数据规模和项目条件进入咨询。

下一步路径

能继续查看配套资料、案例或直接提交配置需求。

关键判断

01部署前先回答三个问题

第一,模型多大:是 7B、14B、32B 还是 70B 级,用什么量化精度。第二,多少人用:是个人验证、部门内几十人,还是要对外提供服务,并发和上下文长...

02参数量和量化决定显存下限

推理时模型权重要常驻显存,量级大约是参数量乘以每参数字节数:FP16 约 2 字节、INT8 约 1 字节、INT4 约 0.5 字节。以此粗估,7B ...

03并发和上下文会放大显存需求

每一路并发请求都会产生 KV cache 等运行时占用,上下文越长、并发越多,这部分越大,长上下文场景甚至可能超过权重本身。个人验证和几十人共用的配置方...

Reading Context

这篇文章适合解决什么问题?

适合阅读对象

正在判断专业软件、数据规模、配置投入顺序和交付条件的采购、IT 或技术负责人。

读完后的动作

把关键软件版本、用户人数、模型或数据规模整理出来,再进入配置清单或方案咨询。

建议一起查看

AI GPU 服务器配置检查表 / AI GPU 服务器选型白皮书 2026

Section 01

部署前先回答三个问题

第一,模型多大:是 7B、14B、32B 还是 70B 级,用什么量化精度。第二,多少人用:是个人验证、部门内几十人,还是要对外提供服务,并发和上下文长度直接决定显存放大倍数。第三,数据边界:资料能不能出内网。三个问题没答清楚之前,讨论具体显卡型号意义不大。

Section 02

参数量和量化决定显存下限

推理时模型权重要常驻显存,量级大约是参数量乘以每参数字节数:FP16 约 2 字节、INT8 约 1 字节、INT4 约 0.5 字节。以此粗估,7B 级模型 FP16 权重约十几 GB,INT4 可以压到数 GB;70B 级模型即使 INT4 也要数十 GB,通常已超出单卡,需要多卡或多机。这只是权重部分的下限,还没算推理过程的动态开销,实际占用需按框架和项目实测确认。

Section 03

并发和上下文会放大显存需求

每一路并发请求都会产生 KV cache 等运行时占用,上下文越长、并发越多,这部分越大,长上下文场景甚至可能超过权重本身。个人验证和几十人共用的配置方向完全不同。估算方法见我们的另一篇文章《大模型推理显存怎么估》,这里先给结论:并发场景务必在权重下限之上预留成倍余量,具体倍数按业务实测确定。

Section 04

三种落地形态:高显存工作站、单机多卡、多机

小参数量模型、低并发的个人或小组验证,可以从高显存工作站起步,放在工位旁即可;部门级服务、中等参数量模型,一般进入单机多卡 GPU 服务器的范围,要开始考虑机房或至少独立空间;70B 级全量模型或高并发服务,往往要评估多机和更高速的互联。对应到英睿特产品线,分别可以从 Z 系列高性能工作站、G 系列 GPU 计算服务器和 T 系列 AI 训练服务器的方向去比较,具体以官网公开资料和最终方案为准。

Section 05

显卡之外:CPU、内存、NVMe 和网络

推理服务不是只有显卡在工作。系统内存建议不低于显存总量,用于模型加载和运行时缓冲;NVMe 盘影响模型切换和冷启动速度;如果做 RAG,还要给向量库和文档处理留出 CPU 和内存;对外服务则要核对网络带宽和延迟。这些配比没有唯一答案,需按实际负载确认。

Section 06

常见误判

一是只看显存容量不看显存带宽和卡间互联,多卡方案里后两者经常才是瓶颈;二是把训练机的思路直接搬到推理场景,为用不上的互联和扩展性付费;三是忽略供电散热,多卡服务器满载功耗和噪音都不适合普通办公环境;四是相信某配置一定能跑某模型的说法,实际能不能跑、跑到什么效果,取决于量化、框架、并发和上下文,需要按项目实测。

Section 07

下一步怎么走

把模型参数量、量化打算、使用人数、上下文长度、数据边界、部署位置和预算口径写清楚,就可以进入配置初筛。可以先用页面上的 AI 配置顾问按这几个条件过一遍,得到一个初步方向;需要正式方案时提交项目需求,提交后由方案工程师继续确认配置、含税预算与交付范围。

Next Step

把阅读结论变成可报价信息

知识库负责帮助您理解配置重点,真正落到型号和报价时,还需要把软件、数据、用户、机房和交付周期放在一起确认。

查看下载资料 提交配置需求