10万元以内 部署满血版DeepSeek
 材料人测试客服小陈     2025-03-02
本地部署满血版DeepSeek,需要什么配置?

在之前的文章中我们介绍过部署DeepSeek进行深度学习需要多少显卡(详情参考:部署DeepSeek 你的显卡够用吗?)。那么满血版DeepSeek要怎样的显卡?这一点,DeepSeek日前已经披露线上的实际数据。


信息显示,DeepSeek V3 和 R1 的所有服务均使用 H800 GPU,使用和训练一致的精度,即矩阵计算和 dispatch 传输采用和训练一致的 FP8 格式。用于推理服务平均占据226.75 个节点,每个节点8卡。

微信截图_20250302105142.png


最关键的,小编觉得还是披露了一台8卡H800的吞吐量:对于 prefill 任务,输入吞吐约 73.7k tokens/s(含缓存命中);对于 decode 任务,输出吞吐约 14.8k tokens/s。这组数据真可谓是把有限的资源优化到了极致,也为提供A100、H100租赁跑通了业务模式。


不过,对于要本地部署的客户来说,8卡H800服务器价格还是太贵了。关于这一点,最近大火的清华团队的KTransformers开源项目,结合动态量化技术(如1.58-bit量化),显存需求降至24GB,剩余参数通过CPU内存加载,如此一张RTX4090D就可以完成。据测试,单卡RTX 4090D的推理生成速度可达14 tokens/s,预处理速度最高286 tokens/s。如此可以将原本需要200万的硬件降低到10万以内。


根据KTransformers开源项目对硬件的要求,在此材料人也为大家准备了部署满血版DeepSeek的方案,整机价格在10万元以内,以供参考:


类别

说明

数量

CPU

INTEL 铂金 8581C 2.1满载3.4睿频3.6G 60核

2

主板

技嘉MS73-HB1 LGA4677 双路主板 

1

内存

MT/SK 5600 DDR5 64G RECC

16

系统盘

三星 1T SATA SSD 企业级

1

存储盘

企业级机械硬盘4T/6T/8T/16T

1

电源

长城1600W模组电源

1

散热器

LGA4677 风冷散热器

2

机箱

塔式机箱/机架机箱

1

GPU

RTX4090 24G

1


合作联系

如有需要,欢迎联系微信cailiaoren010,或扫描以下二维码添加好友

115417_3503.png

暂无留言
Copyright © 2011 - 2020 cailiaoren.com. All rights reserved.
京ICP备16046932号-2   京公网安备11010802029412号