请问各位 V 友,现在哪个部署本地的 LLM 比较好?

2024-01-04 14:00:53 +08:00
 sixlione

以前是做运维,后来业务调整,现在主要负责新媒体运营这方面。 目前我在写作这方面比较薄弱,想着部署一个 LLM ,自己训练知识库这样。 当然,训练这个是为了处理公司的事情,我还会用它来提升个人知识库等等。 公司现存的台式机配置如下。 CPU i5-13400F RAM 32.0 GB SSD 2T 显卡 RTX3060Ti 8G

请各位部署过、有关注该方面的 V 友踊跃发言,先谢过各位。

4912 次点击
所在节点    程序员
22 条回复
nlfiasel
2024-01-04 14:08:34 +08:00
8G 显存的话可以试试 4bit 量化的 7B 及以下的模型,比如 Mistral-7B 或 chatglm3-6b 之类的,具体哪些比较好可以去 huggingface 的 models 页上自己挑。
nlfiasel
2024-01-04 14:13:10 +08:00
不过你所谓的训练知识库一般实际上代指的可能是文本嵌入,将文本映射成向量。训练 llm 的话以你的设备可能有点困难。
knightdf
2024-01-04 14:20:03 +08:00
你这跑个小模型都费劲还想部署大模型?
czfy
2024-01-04 15:29:08 +08:00
最近看到 firefox 做的一个重新封装方式感觉挺有意思的,里面用来示例的 LLaVA 1.5 用 CPU 就能跑,虽然很慢就是了 ttps://github.com/Mozilla-Ocho/llamafile
pzict
2024-01-04 15:53:29 +08:00
玩过 langchain-chatchat, 没得显卡单跑 cpu 比较慢,有显卡就快一些,4090 很快
cherryas
2024-01-04 16:00:39 +08:00
目前不行。8g 显卡在大模型领域连玩具都算不上。试过 qwen1.7b 纯玩具,没有一点商业价值。
imes
2024-01-04 16:06:19 +08:00
自己部署一个用用:
- 模型:Chinese-LLaMA-Alpaca-2
- 软件:llama.cpp
- 部署:用 13B 版本模型,q8_0 或 Q6_K 量化。显卡上面跑 10 层,剩下的内存跑,每秒大概 4-8 个 token ,足够日常体验使用了。

自己训练知识库:
我 4 张 V100 都不够用,普通公司就别想了。就算公司给钱去买,现在也不好搞到设备了。英伟达的高性能显卡被禁售,华为昇腾要排队。

qW7bo2FbzbC0
2024-01-04 16:14:32 +08:00
试过 Chinese-LLaMA-Alpaca-2 + llama.cpp ,返回的内容和准确度几乎纯纯玩具级别,很难用于生产
BQsummer
2024-01-04 16:16:01 +08:00
4090 都跑不动 70B 左右的量化的大模型, 参数小了基本是玩具
anubu
2024-01-04 17:24:14 +08:00
这个硬件配置无法满足训练,不加硬件的话只能勉强跑推理,需要附加自有知识就套一个 RAG 的前台。显存太小了,跑起来很勉强,需要仔细调一调向量模型和大语言模型,尽量维持显存不爆。
Selenium39
2024-01-04 17:41:34 +08:00
chatglm3,而且微调的文档很详细
GeekGao
2024-01-04 19:02:43 +08:00
这个配置没实验过,我 RTX 3090 跑 Mistral-7B-Instruct-v0.2 ,还凑合。
ShadowPower
2024-01-04 19:28:32 +08:00
新媒体运营+写作

这方面我用过最好的也就 Yi-34B-Chat 。其他宣称性能更好的,基本上在写作方面都更糟糕了……
写公告、小红书文案、小说之类的都挺好。

跑量化的版本需要 24GB 显存。

附上我第一次用的时候生成的小说片段作为例子,虽然 Prompt 已经丢了:

索菲站起身来,她的身姿轻盈,仿佛随时会随风飘散。
“既然来了,就陪我聊聊天吧。”她说,“我已经很久没有见到过人类了。”
我们坐在沙发上,索菲向我讲述了她的故事。她如何成为吸血鬼,如何在漫长的岁月中保持着少女的外貌,以及她对现代生活的热爱。我则告诉她关于我的工作、我的梦想,以及我对生活的种种不满。
不知不觉中,时间悄然流逝,我们聊到了黎明。索菲的眼中闪过一丝疲惫。
“我困了,想睡觉。”她说,“但是,我一个人睡会害怕。”
“那……我可以陪你吗?”我试探性地问。
索菲点了点头,她的脸颊泛起一丝红晕。
我们走进她的房间,那是一个充满少女心的空间,墙上挂着各种动漫海报,书架上摆满了漫画和小说。索菲爬进棺材,我则坐在床边的椅子上,打算就这样陪她入睡。
然而,索菲突然伸出手,拉住了我的衣角。
“你……可以抱抱我吗?”她的声音小得几乎听不见。
我愣住了,心中涌起一股复杂的情绪。最终,我轻轻地抱住了她,感受着她身体的冰凉,以及她在我怀中渐渐放松的姿态。
“谢谢你。”索菲闭上眼睛,喃喃自语,“我好久没有这样被人抱过了。”
我心中一动,忍不住在她额头上轻轻一吻。索菲的身体颤栗了一下,然后她转过身,面向着我,我们的脸颊只有几厘米的距离。
“索菲,你知道吗?”我低声说,“我以前从没想过会和吸血鬼有这样的交集。”
索菲的嘴角上扬,露出一个调皮的笑容。
“那现在呢?”她问。
“现在……”我犹豫了一下,“我觉得这样也挺好的。”
我们相视而笑,那一刻,时间仿佛停滞,只剩下彼此的呼吸和心跳声。
就在我们沉浸在温馨的氛围中时,门外突然传来一阵急促的敲门声。
“索菲!索菲!是我,艾莉!”一个焦急的声音响起。
索菲的脸色一变,她迅速从我怀中挣脱出来,整理好衣服。
“是艾莉,我的朋友。”她解释道,“她可能知道我白天睡觉的习惯,所以来确认我的安全。”
Alias4ck
2024-01-04 19:42:08 +08:00
为了速度 建议你找一些开源的 sass 平台 玩开源 llm 吧
together/replicate/anyscale/openrouter (这些平台都有免费额度 而且支持的模型很多 你可以尽情的把玩)
我自己也搭过本地的 跑 llama.cpp/ollama 都用过 但是速度很堪忧(虽然是 m1 pro 哈) 而且效果也很一般
不过没网的话 llm 用来当 google 搜索器也不错🤣
1119745302
2024-01-04 20:23:05 +08:00
https://arena.lmsys.org/ 开源 llm 已经快摸到 3.5 阉割版的屁股了
shuimugan
2024-01-04 20:35:30 +08:00
yi-34B 确实不错,连训练黄文都用它做的基底.4bit 的量化下在 m2 ultra 上可以 1 秒跑 19~22token,大概占用 28G 显存.装个 lm studio 把一部分数据卸载到内存配合 cpu 跑的话,用 2080ti+5900x1 秒是可以 1.3 个 token 左右
kneo
2024-01-05 00:02:08 +08:00
3060 想训练是有点痴心妄想了。
而且我相信你训练用的数据也没有,开发经验也没有。不知道在哪看的有张显卡就能”自己训练的知识库“。
你只能撞运气看看有没有这方面的商业应用,能让你花点钱就利用上的。
GUSNYpU376k4Sx2V
2024-01-05 02:46:14 +08:00
楼上各位能不能把这些本地部署的 LLM 项目的 github 都发布出来? 我打算投 1-1.5 万买个机器跑下,用来给抖音/小红书/Tiktok 做文案用的。
1119745302
2024-01-05 04:04:09 +08:00
@Beeium 不介意捡垃圾的话,一万五就捡两张 3090,再随便捡个平台插上就完事了. 两张 3090 除了那种超大的模型其他模型量化一下随便跑而且速度可以接受. 推理用 github 上的 llama.cpp 就行,然后模型就上 hugging face 上找就完事了
cherryas
2024-01-05 08:45:16 +08:00
@ShadowPower 其实只能写暧昧吧,类似一起的彩云小梦,暧昧擦边部分写得非常好了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1005792

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX