大模型平台部署有些疑问

Blade 未结 1 109
15230319776
15230319776 剑者 2025-06-18 16:55

对于大模型平台分布式版部署配置有几个问题:

1、模型推理服务器和向量数据库服务器上部署的blade-model和blade-vector,这个blade-model和,blade-vector指的是大模型平台中的某个模块吗,我在代码中没找到,还是指的是私有化部署deepseek和私有化部署向量数据库

2、这个部署配置中包含私有化部署deepseek和私有化部署向量数据库吗,如果没有包含,可以提供一下推荐的部署配置吗

deepseek私有化部署专业级配置有个问题想咨询一下

 1、这个部署配置支持并发用户是20-50人,推理速度是20-35tokens/秒,如果我的并发没有那么高,比如我的并发是2-5人,那推理速度是否可以理解为是200-350tokens/秒

image.pngimage.png

1条回答
  • 2025-06-18 18:08

    目前大模型是springboot后端,单个服务部署,上述文档里的是后续根据业务需求拆分成cloud架构的服务定义,只是一个例子说明


    如果使用量很大,向量数据库的部署一般也是推荐单独一个服务器,文档那有介绍说明。


    deepseek、qwen这类模型的单独部署,对cpu显卡要求较高,2-5用户是没法达到200~350tokens/s的,正常单请求都是30-50tokens/s这样。


    推理速度的主要瓶颈在于硬件资源(如GPU算力、显存带宽、系统内存等)。在并发用户数较高时,多个请求会竞争这些资源,单用户推理速度会有所下降,但这种下降并非线性,资源调度和批处理机制会部分缓解影响


    在并发(如20-50人)时,单用户推理速度会低于极低并发(如2-5人)时,但提升幅度有限,通常只会提升1.5-2倍,而不是10倍


    要实现单用户 200+ tokens/s,成本较高,需部署多卡集群,采用 多卡并行推理 ,比如满血版服务器详细配置与价格可以参考:

    https://deepseek.csdn.net/67b9a5b7bf22ba11594d436a.html


    其他可参考:

    https://github.com/dzhsurf/deepseek-v3-r1-deploy-and-benchmarks


    https://github.com/sgl-project/sglang/issues/3196


    https://artificialanalysis.ai/providers/deepseek

    0 讨论(0)
代码语言
提交回复