LLM 私有化部署

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

过年 deepseek 火了一把，成本、性能都有不错的优势

小弟不是相关从业人员，对这方面不是很了解，一直停留在 QA 上。

刚开始对大模型私有化部署有点惊讶，还能私有化部署，，他不应该是个很庞大的东西吗，，不应该是一个需要庞大计算资源才能运行起来，正常使用的吗等等...

既然能私有化部署，是不是 llm 训练好了之后，就是一个 AI 了？如果再加上推理用的显卡，使用效果是不是就能和官方相当？还有中小厂把 ds 的模型私有化部署一下，加上自己的数据稍加训练也能拥有一个 AI ？

llm

私有化部署

DeepSeek

6 条回复 • 2025-02-08 16:45:35 +08:00

TimePPT

2 天前

模型的私有化部署一直有。

前 GPT 时代，模型参数都没那么大（ BERT 这种），基本上企业自部署的比较多。
GPT 时代，一般私有化部署的都是 100B 参数以下的模型。
一般本地台式机 or 笔记本的本地部署，参数量级在几十 B 以下（ 10B 以下极轻量级最常见），适当做些量化处理，基本上都能跑。

现在营销号推的 DeepSeek 本地部署的，绝大部分其实指的是蒸馏过的小模型。

Shaaaadow

2 天前

可以去 ollama 看看，上面有标每个模型的大小： https://ollama.com/

像 DeepSeek-R1 ，671b 的版本才是真正使用了 deepseek2 架构的模型，可以认为这是 R1 的完全体，但是也需要巨大的显存才能跑起来，单机部署的话是不可能的

营销号说的很容易本地部署的应该是 7b 8b 的蒸馏版本，这种都是用 llama 或者 qwen 的架构从完全体蒸馏出的小模型，可以很轻松地本地跑，但是有点笨笨的。32b 和 70b 会聪明很多，但是得需要比较高端的显卡或者比较大规格的 Mac 才能带得动

mingtdlb

2 天前

@Shaaaadow ollama 跟官方的有区别么？ 671b 看着要 404G 的显存，但不是所有企业都要这个级别的，整个 14B 32B 的应该就够了吧

硅基流动这种平台是不是就是干这事的，把开源的模型拿来部署起来，再加上自己整一些 feature ，卖服务？

kiseopt

2 天前

区别很大，如果你要在线的质量那就只能完整版，普通的 14B 32B 的本地版本其实远不如各家的在线版，这个的意义更多的是说我们可以这样，然后还有你拿来微调做专精特化的 LLM

zhongdenny

2 天前

@mingtdlb ollama 的默认 671b ，400G 大小，好像写着是 4 比特量化版本。官方版本 163 个 4G 的文件，合计大概 700G 。

Shaaaadow

1 天前

@mingtdlb 网上测评说有点区别？不过我没有具体对比过，我实际体验下来感受就是，ollama 的 671b 比官方的少一些功能，比如审查+撤回（