过年 deepseek 火了一把,成本、性能都有不错的优势
小弟不是相关从业人员,对这方面不是很了解,一直停留在 QA 上。
刚开始对大模型私有化部署有点惊讶,还能私有化部署,,他不应该是个很庞大的东西吗,,不应该是一个需要庞大计算资源才能运行起来,正常使用的吗 等等...
既然能私有化部署,是不是 llm 训练好了之后,就是一个 AI 了?如果再加上推理用的显卡,使用效果是不是就能和官方相当?还有 中小厂把 ds 的模型私有化部署一下,加上自己的数据稍加训练也能拥有一个 AI ?
![]() |
1
TimePPT 2 天前
模型的私有化部署一直有。
前 GPT 时代,模型参数都没那么大( BERT 这种),基本上企业自部署的比较多。 GPT 时代,一般私有化部署的都是 100B 参数以下的模型。 一般本地台式机 or 笔记本的本地部署,参数量级在几十 B 以下( 10B 以下极轻量级最常见),适当做些量化处理,基本上都能跑。 现在营销号推的 DeepSeek 本地部署的,绝大部分其实指的是蒸馏过的小模型。 |
2
Shaaaadow 2 天前
可以去 ollama 看看,上面有标每个模型的大小: https://ollama.com/
像 DeepSeek-R1 ,671b 的版本才是真正使用了 deepseek2 架构的模型,可以认为这是 R1 的完全体,但是也需要巨大的显存才能跑起来,单机部署的话是不可能的 营销号说的很容易本地部署的应该是 7b 8b 的蒸馏版本,这种都是用 llama 或者 qwen 的架构从完全体蒸馏出的小模型,可以很轻松地本地跑,但是有点笨笨的。32b 和 70b 会聪明很多,但是得需要比较高端的显卡或者比较大规格的 Mac 才能带得动 |
![]() |
3
mingtdlb OP @Shaaaadow ollama 跟官方的有区别么? 671b 看着要 404G 的显存,但不是所有企业都要这个级别的,整个 14B 32B 的应该就够了吧
硅基流动这种平台是不是就是干这事的,把开源的模型拿来部署起来,再加上自己整一些 feature ,卖服务? |
4
kiseopt 2 天前
区别很大,如果你要在线的质量那就只能完整版,普通的 14B 32B 的本地版本其实远不如各家的在线版,这个的意义更多的是说我们可以这样,然后还有你拿来微调做专精特化的 LLM
|
5
zhongdenny 2 天前
@mingtdlb ollama 的默认 671b ,400G 大小,好像写着是 4 比特量化版本。官方版本 163 个 4G 的文件,合计大概 700G 。
|