LLM 私有化部署

3 天前
 mingtdlb

过年 deepseek 火了一把,成本、性能都有不错的优势

小弟不是相关从业人员,对这方面不是很了解,一直停留在 QA 上。

刚开始对大模型私有化部署有点惊讶,还能私有化部署,,他不应该是个很庞大的东西吗,,不应该是一个需要庞大计算资源才能运行起来,正常使用的吗 等等...

既然能私有化部署,是不是 llm 训练好了之后,就是一个 AI 了?如果再加上推理用的显卡,使用效果是不是就能和官方相当?还有 中小厂把 ds 的模型私有化部署一下,加上自己的数据稍加训练也能拥有一个 AI ?

880 次点击
所在节点    Local LLM
7 条回复
TimePPT
3 天前
模型的私有化部署一直有。

前 GPT 时代,模型参数都没那么大( BERT 这种),基本上企业自部署的比较多。
GPT 时代,一般私有化部署的都是 100B 参数以下的模型。
一般本地台式机 or 笔记本的本地部署,参数量级在几十 B 以下( 10B 以下极轻量级最常见),适当做些量化处理,基本上都能跑。

现在营销号推的 DeepSeek 本地部署的,绝大部分其实指的是蒸馏过的小模型。
Shaaaadow
3 天前
可以去 ollama 看看,上面有标每个模型的大小: https://ollama.com/

像 DeepSeek-R1 ,671b 的版本才是真正使用了 deepseek2 架构的模型,可以认为这是 R1 的完全体,但是也需要巨大的显存才能跑起来,单机部署的话是不可能的

营销号说的很容易本地部署的应该是 7b 8b 的蒸馏版本,这种都是用 llama 或者 qwen 的架构从完全体蒸馏出的小模型,可以很轻松地本地跑,但是有点笨笨的。32b 和 70b 会聪明很多,但是得需要比较高端的显卡或者比较大规格的 Mac 才能带得动
mingtdlb
3 天前
@Shaaaadow ollama 跟官方的有区别么? 671b 看着要 404G 的显存,但不是所有企业都要这个级别的,整个 14B 32B 的应该就够了吧

硅基流动这种平台是不是就是干这事的,把开源的模型拿来部署起来,再加上自己整一些 feature ,卖服务?
kiseopt
3 天前
区别很大,如果你要在线的质量那就只能完整版,普通的 14B 32B 的本地版本其实远不如各家的在线版,这个的意义更多的是说我们可以这样,然后还有你拿来微调做专精特化的 LLM
zhongdenny
2 天前
@mingtdlb ollama 的默认 671b ,400G 大小,好像写着是 4 比特量化版本。官方版本 163 个 4G 的文件,合计大概 700G 。
Shaaaadow
2 天前
@mingtdlb 网上测评说有点区别?不过我没有具体对比过,我实际体验下来感受就是,ollama 的 671b 比官方的少一些功能,比如审查+撤回(
tycholiu
3 小时 56 分钟前
还是得要稳定,不稳定就用得恼火,最近发现这家 https://ppinfra.com 还不错,可以试一下。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1109565

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX