V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mingtdlb
V2EX  ›  Local LLM

LLM 私有化部署

  •  
  •   mingtdlb · 2 天前 · 809 次点击

    过年 deepseek 火了一把,成本、性能都有不错的优势

    小弟不是相关从业人员,对这方面不是很了解,一直停留在 QA 上。

    刚开始对大模型私有化部署有点惊讶,还能私有化部署,,他不应该是个很庞大的东西吗,,不应该是一个需要庞大计算资源才能运行起来,正常使用的吗 等等...

    既然能私有化部署,是不是 llm 训练好了之后,就是一个 AI 了?如果再加上推理用的显卡,使用效果是不是就能和官方相当?还有 中小厂把 ds 的模型私有化部署一下,加上自己的数据稍加训练也能拥有一个 AI ?

    6 条回复    2025-02-08 16:45:35 +08:00
    TimePPT
        1
    TimePPT  
       2 天前
    模型的私有化部署一直有。

    前 GPT 时代,模型参数都没那么大( BERT 这种),基本上企业自部署的比较多。
    GPT 时代,一般私有化部署的都是 100B 参数以下的模型。
    一般本地台式机 or 笔记本的本地部署,参数量级在几十 B 以下( 10B 以下极轻量级最常见),适当做些量化处理,基本上都能跑。

    现在营销号推的 DeepSeek 本地部署的,绝大部分其实指的是蒸馏过的小模型。
    Shaaaadow
        2
    Shaaaadow  
       2 天前
    可以去 ollama 看看,上面有标每个模型的大小: https://ollama.com/

    像 DeepSeek-R1 ,671b 的版本才是真正使用了 deepseek2 架构的模型,可以认为这是 R1 的完全体,但是也需要巨大的显存才能跑起来,单机部署的话是不可能的

    营销号说的很容易本地部署的应该是 7b 8b 的蒸馏版本,这种都是用 llama 或者 qwen 的架构从完全体蒸馏出的小模型,可以很轻松地本地跑,但是有点笨笨的。32b 和 70b 会聪明很多,但是得需要比较高端的显卡或者比较大规格的 Mac 才能带得动
    mingtdlb
        3
    mingtdlb  
    OP
       2 天前
    @Shaaaadow ollama 跟官方的有区别么? 671b 看着要 404G 的显存,但不是所有企业都要这个级别的,整个 14B 32B 的应该就够了吧

    硅基流动这种平台是不是就是干这事的,把开源的模型拿来部署起来,再加上自己整一些 feature ,卖服务?
    kiseopt
        4
    kiseopt  
       2 天前
    区别很大,如果你要在线的质量那就只能完整版,普通的 14B 32B 的本地版本其实远不如各家的在线版,这个的意义更多的是说我们可以这样,然后还有你拿来微调做专精特化的 LLM
    zhongdenny
        5
    zhongdenny  
       2 天前
    @mingtdlb ollama 的默认 671b ,400G 大小,好像写着是 4 比特量化版本。官方版本 163 个 4G 的文件,合计大概 700G 。
    Shaaaadow
        6
    Shaaaadow  
       1 天前
    @mingtdlb 网上测评说有点区别?不过我没有具体对比过,我实际体验下来感受就是,ollama 的 671b 比官方的少一些功能,比如审查+撤回(
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1125 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 23:43 · PVG 07:43 · LAX 15:43 · JFK 18:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.