对于大模型平台分布式版部署配置有几个问题:
1、模型推理服务器和向量数据库服务器上部署的blade-model和blade-vector,这个blade-model和,blade-vector指的是大模型平台中的某个模块吗,我在代码中没找到,还是指的是私有化部署deepseek和私有化部署向量数据库
2、这个部署配置中包含私有化部署deepseek和私有化部署向量数据库吗,如果没有包含,可以提供一下推荐的部署配置吗
deepseek私有化部署专业级配置有个问题想咨询一下
1、这个部署配置支持并发用户是20-50人,推理速度是20-35tokens/秒,如果我的并发没有那么高,比如我的并发是2-5人,那推理速度是否可以理解为是200-350tokens/秒
目前大模型是springboot后端,单个服务部署,上述文档里的是后续根据业务需求拆分成cloud架构的服务定义,只是一个例子说明
如果使用量很大,向量数据库的部署一般也是推荐单独一个服务器,文档那有介绍说明。
deepseek、qwen这类模型的单独部署,对cpu显卡要求较高,2-5用户是没法达到200~350tokens/s的,正常单请求都是30-50tokens/s这样。
推理速度的主要瓶颈在于硬件资源(如GPU算力、显存带宽、系统内存等)。在并发用户数较高时,多个请求会竞争这些资源,单用户推理速度会有所下降,但这种下降并非线性,资源调度和批处理机制会部分缓解影响
在并发(如20-50人)时,单用户推理速度会低于极低并发(如2-5人)时,但提升幅度有限,通常只会提升1.5-2倍,而不是10倍
要实现单用户 200+ tokens/s,成本较高,需部署多卡集群,采用 多卡并行推理 ,比如满血版服务器详细配置与价格可以参考:
https://deepseek.csdn.net/67b9a5b7bf22ba11594d436a.html
其他可参考:
https://github.com/dzhsurf/deepseek-v3-r1-deploy-and-benchmarks
https://github.com/sgl-project/sglang/issues/3196
https://artificialanalysis.ai/providers/deepseek
扫一扫访问 Blade技术社区 移动端