AI(大模型)本地化项目 和 部署设备

2024-01-11 04:31:46 +08:00
 Int100

请问一下各位都是怎么"AI(大模型)本地化"的?

有没有一些推荐的项目?例如 hugging face ,localai 。

另外大家的本地模型都是跑在什么设备上?直接 Linux 服务器 + Nvidia 显卡吗?

手头的设备是 MacBook Pro M3, 尝试跑一些编译的时候经常因为 arm64 架构出错。

3874 次点击
所在节点    Local LLM
6 条回复
shuimugan
2024-01-11 07:32:38 +08:00
客户端
https://lmstudio.ai/ 界面布局合理,功能也 ok 。
https://github.com/oobabooga/text-generation-webui/ 界面不太好用但功能丰富,适合丢公网加个密码访问。
都支持上下文不足被截断时那个 continue 继续续写,都支持多种显卡加速,都支持开 OpenAI 格式的接口方便你拿其它客户端去调用。

模型
https://huggingface.co/TheBloke 下载量化后的 GGUF 格式,一般看自己内存多大下载对应的规格,Q8 是损耗最小的但是最占资源速度也最慢,Q4_K_M 相对平衡。我现在喜欢下载 Q5_K_M 以上玩

设备
m2 ultra 76-core 192gb 官翻版

推荐模型
https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-GGUF CodeLlama 的微调版,我拿来写代码还可以,Q4_K_M 规格量化速度 23token/s
https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF Mixtral-8x7B:混合专家模型,速度很快准确率也 ok ,Q4_K_M 规格量化速度 50token/s ,Q5_K_M 是 37token/s
https://huggingface.co/TheBloke/Yi-34B-200K-GGUF 零一万物,中文能力不错,有黄文的模型是基于它做的微调,而且有 200k 的上下文,Q8 规格 开启 20w 字上下文,内存不放模型占用 48GB ,内存也放模型占用 83GB ,真微服务的话整个服务丢进去问问题也可以
https://huggingface.co/TheBloke/vicuna-13B-v1.5-GGUF 刚出来的时候一鸣惊人,很小很强悍,中文能力也不错,能写黄文能写代码。


其它推荐
https://www.reddit.com/r/LocalLLaMA/ 上面玩本地模型的很多,讨论热度高。
https://github.com/SJTU-IPADS/PowerInfer 灵活使用 cpu 和 gpu 的内存,让更小显存的设备跑大模型有更快的速度,todo 里有多 GPU 和 M 系列芯片的计划,值得期待,我的 2 个 2080ti 22g 有望在今年跑 70B 规格嗖嗖快了。
https://github.com/ml-explore/mlx-examples 不喜欢跑量化的要满血的,可以用苹果的 mlx 框架来驱动模型,按说明先转换格式就可以跑起来了,我现在也期待其它客户端把它也整合进去。
shawndev
2024-01-11 10:01:12 +08:00
能用 cuda 还是用 cuda ,以下转自自己的推特:

换 M2 Max 的 Mac Studio 后和 13700K+4090 做了下机器学习的对比。在 BERT 文本分类场景,13700K 1it/s ,4090 30it/s ,M2 Max 6it/s 。均使用 huggingface 的 Pytorch 实现,其中 M2 Max 使用 mps 后端(但未验证是否所有 operator 都支持 mps )。
MonTubasa
2024-01-11 11:25:42 +08:00
曾经我也很苦恼这个问题,大部分时间用的云服务器。直到有一天我老婆送了我一张 4090
Alias4ck
2024-01-11 11:58:03 +08:00
mac 有个傻瓜的,原理是基于 llama.cpp 和 docker ,偏命令行,对命令行情有独钟的可以试试(它也支持 linux

ollama( https://ollama.ai/)
Lockroach
2024-01-11 12:47:14 +08:00
llama.cpp ,直接配合其他文件运行大模型
Int100
2024-01-11 16:43:03 +08:00
@shuimugan 这是我在 v2 上看到的质量最高的回复!感谢分享!

@shawndev @MonTubasa @Lockroach @Alias4ck 谢谢分享,我这去试试。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1007671

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX