怎么感觉 v2 这里很少有 ai 或大模型开发相关得讨论啊

2023-12-28 18:35:02 +08:00
 iorilu

现在不是 ai 火吗

我在思考各种 gpt, llama 这种 对于 ge 个人来说有没有什么好的方向能够 做些产品

怎么没有人想在开发一个国内得 huggingface 这种可以分享上传模型得网站

这样比如有个人训练得模型, 可以发到这个网站上, 用户可以付费使用, 网站本身也可以提成一部分

12960 次点击
所在节点    程序员
81 条回复
hiphooray
2023-12-29 10:18:50 +08:00
因为都在刷论文 and 闷头卷,并且巨大的硬件成本使得开发者人数本就不会太多(来自一个具身智能算法开发者,以及拜托国内外 CS 的大佬们不要再创造新词汇了)
xjx0524
2023-12-29 10:26:21 +08:00
@4rat 同一直记得是魔塔,后来发现人家叫魔搭...
ShadowPower
2023-12-29 10:33:46 +08:00
想给大家分享几点:
1. 虽然个人制作一个预训练模型不太现实,但是其实微调模型的门槛很低;
2. 如果你只有 6GB 显存,可以尝试微调 Qwen 1.8B 。虽然不能指望它给你准确回答问题,或者帮你写出正确的代码,但用于只需要想象力的文学创作方面还不错;
3. 零一万物的 Yi 系列模型其实很强,尽管中文互联网上讨论得少。主要优势在中文写作上。虽然它不那么遵循指令,然而 34B-Chat 的中文写作质量真的可以超过 GPT4 ;
4. 除了在 LLaMa 1 刚出来的那个时代,实际上,参数量大的开源模型效果往往不理想。参数量小的开源模型反而更实用;
5. 不要迷信 M2 Ultra 192GB ,想玩出花样,目前看来,NVIDIA 仍然是首选。


说说为什么参数量大的开源模型效果不理想吧。其实最大的原因在于参数量越大,训练成本越高。哪怕对于商业公司来说,预算也不是无限的。训练大模型其实有很多复杂的工程问题,需要多机器的都不简单。

参数量小的模型因为训练成本比较低,很快就能迭代新版本,不断地追加训练数据。
于是,小一点的模型相比大一点的模型,训练得更加充分,数据也更多样。
对商业公司来说,也更适合尝试不同的训练方法。全参数训练 6B 模型最低其实只要一块显卡,60 多 GB 显存。

还有,为什么不要迷信 M2 Ultra 192GB 。
我尝试了市面上绝大多数比较受欢迎的模型(仅中/英文),绝大多数有用的模型都在 1~34B 内。其中又有几乎 95%的模型在 1.5~14B 这个范围内。

M2 Ultra 192GB 的优势则是可以在输出效率能接受的情况下尝试 70B 、120B 、180B (只有一个)的模型。
不过很快你就会发现这些模型一点用都没有:
写作很差,都是那种总-分-总的议论文结构,而且非常机械、死板;
写代码或者回答问题都是错误百出……写代码最好的模型大多数有 34B 左右的参数量;
角色扮演也很无趣,输出实在是太正经了。无论扮演什么,都像在跟售后客服聊天,而且服务范围很有限。最好的角色扮演模型大多数是 13B 左右的参数量。原因很简单,网友自己微调模型,能接受的最高成本在这里。

另外大型语言模型其实可以量化运行,而且性能损失很小。llama.cpp 的 Q5_K_M 量化几乎不影响写作性能,依然能保持和 fp16 同等的质量。只是输出的内容不完全相同。

如果想用 M2 Ultra 192GB 训练模型,其实并不好使。坑很多,有这些:
运行不一定报错,但是训练出来的模型可能是废的。还不好排查问题在哪,网上没人讨论。比如,训练 Stable Diffusion 的 LoRA 拿来用,输出的图都是黑的……
训练速度超级慢。要是模型本身就不大,其实用 NVIDIA 游戏显卡坑少效率还高。模型大到 NVIDIA 游戏显卡跑不起来的情况下,训练速度就相当慢了。你不会愿意把它放着跑个一两年,还保持满载。

PyTorch 的 MPS 后端跑很多模型看起来“能跑”,但是有一些算子实际上没有 MPS 实现,会回退到 CPU 上跑。所以不能光看显卡理论性能。
在训练的时候,ANE 是完全用不上的(推理的时候能用上,但它只能做 INT8/FP16 卷积)。而 NVIDIA 显卡的 Tensor Core 能用上。

个人玩 LLM 最具性价比的选择是 3090 ,进阶选择是两块 3090 ,缺点是噪声比较大,主板和电源要求也高。
4090 在噪声方面好一些,但是现在还是太贵了。

不捡垃圾,不买矿卡,不魔改的情况下,入门选择是 4060Ti 16GB 。
只想体验一下的话,租个 VPS 玩玩,或者用 llama.cpp 用 cpu 跑……
xjx0524
2023-12-29 10:34:53 +08:00
@k9982874 早些年 v 站真的是技术论坛,很多疑难杂症都能在这求解,但现在真的越来越水了。。。
tangtang369
2023-12-29 10:37:18 +08:00
这种要靠 gpu 跑的 个人自己做慈善 可能钱包吃紧
当然如果你也 ai 的问题也可以问我
anubu
2023-12-29 11:11:55 +08:00
国内玩的话应该会接触到魔搭、autodl ,差不多就是 huggingface 、colab 一类,集成度比较低但能用。
模型和平台个人开发者应该没太多机会,都是比较重的方向。搞一些工具或应用,比如 RAG 、可控生成,似乎还有点意思。比如 langchian-chatchat 、fastgpt ,有能力也可以搞一搞应用框架一类。
目前的商业化落地比较困难,LLM 生态都是看着挺有意思,要做到能投产却很困难。有大量的开源项目,不怎么费力就可以跑个七七八八,但要做到融合到生产业务里就很困难了。基于 langchain 、llama-index 等框架,糊一个勉强能落地的应用,能从政企跟风项目层层外包中捞点汤喝已是不错的结果。
iorilu
2023-12-29 11:39:15 +08:00
@ShadowPower 不错得经验分享, 我目前就一个小机器配 3060 12G, 装了 ubuntu 做测试机玩玩

如果想弄比如两块 4060ti 16G 之类得, 现在又方便能分布式跑在两块卡训练吗
ShadowPower
2023-12-29 11:57:30 +08:00
@iorilu 只想双显卡加快训练速度的话,用 huggingface 的 accelerate 库就可以了,官方文档: https://huggingface.co/docs/accelerate/index

不过它只支持数据并行,所以不能解决那种一块显卡显存不够,用多块才够的问题。

之前看过一些框架,据说支持把模型拆分到多块显卡上训练。例如 DeepSpeed 、ColossalAI 之类的。只是我还没成功跑起来……
herozzm
2023-12-29 11:59:25 +08:00
个人没机会
iorilu
2023-12-29 12:55:51 +08:00
@ShadowPower 比如想专门微调用于中文写作生成的模型,能推荐下吗, 比如我想基于一个中文模型训练金庸全集写武侠,用那个模型比较好

本来我想找个中文的 GPT2 ,因为我觉得 GPT2 模型大小比较合适,但 gpt2 好像没公认比较好的中文模型把

另外比如用某个模型,那 embeding 是用模型自带的比较好还是用 bert 中文这种,毕竟 bert 也算是专门训练词嵌入的吧
ShadowPower
2023-12-29 13:34:16 +08:00
@iorilu
Yi-6B 就挺好的,预训练数据里已经有好多小说数据了。
如果还想更小一些,还有 RWKV ,不过相关的生态比较少。

embeding 用这个: https://huggingface.co/moka-ai/m3e-base
Huelse
2023-12-29 14:59:21 +08:00
自从 v2 在墙外后就意味着有更多的情绪贴会被发出来,纯粹的技术讨论只在几个小分区里可以看到,算是各有利弊

回归本题,我认识的 AI 大佬都是博士以上的,他们大多没空在这类论坛上发帖,而且 AI 对硬件条件要求较高,不是每个人都能玩得动的,可以说是大公司或国家级别的资源才够,大概率都涉密
gitlight
2023-12-29 15:14:31 +08:00
我还在天天调 BERT 洗 bad case(꒦_꒦) ,LLM 玩不起
zjuster
2023-12-29 15:32:44 +08:00
v2 这里主要是“应用“,如何将 chatgpt 的服务接口封包为国内可用的第三方。 这个实际地多。
mightybruce
2023-12-29 15:37:20 +08:00
看了看 ShadowPower 发的,其实个人玩玩还是可以的,
这类模型微调很多, 其实就是用语料训练一个 chatbot
半年前那个 AI 孙艳姿 唱歌 还火过,也是这类, 自己玩玩可以, 商业上谈不上。
另外,国内任何 AI 应用上线 还要接受《生成式人工智能服务管理办法》制约,敏感词是要过滤的。

国内外 AI 团队已经不再是简单的微调了,都已经上升到 AI 对齐了。
jim9606
2023-12-29 15:42:55 +08:00
你如果是说当个 openai 搬运工的,大把,我差不多天天都能看到。
至于真搞训练的,不是要大把钱就是大把数据,跟小创业者也没啥关系。
而且你看那些追这波热潮的,哪怕是大厂,都是顶多换皮微调级别,真搞训练的怕不是连融资都拿不到。
isouu
2023-12-29 15:44:40 +08:00
@ShadowPower 这是用 Base 模型还算 Chat 模型?训练数据的话是将知乎高赞回答喂进去的吗
ShadowPower
2023-12-29 15:45:44 +08:00
@isouu Chat 模型,训练数据是一些大 V 的回答
isouu
2023-12-29 15:49:59 +08:00
@ShadowPower 训练好的模型能够有哪些变现的场景呢?
veotax
2023-12-29 15:52:25 +08:00
可以看看这个 langchain 平台,可以集成多种 GPT 接口:

Casibase:开源的企业级 AI 知识库,让 AI 助手学会所有企业内部文档知识!包括如下特性:

1. 支持 ChatGPT 、Azure OpenAI 、HuggingFace 、OpenRouter 、百度文心一言、讯飞星火、Claude 等众多国内外模型;
2. 支持多种 Embedding 嵌入 API 接口,如 OpenAI Ada, 百度文心一言等;
3. 支持多种文档格式:txt, markdown, docx, pdf 等,支持 PDF 文件智能解析;
4. 支持 AI 小助手通过右下角弹框嵌入到应用网站,进行在线实时聊天,支持聊天会话人工接入;
5. 支持多用户、多租户,支持 Casdoor 单点登录;
6. 所有聊天会话保存日志,管理员可查看、修改,方便审计、计费等操作;
7. 界面语言支持中文、英文等多语种。

Casibase 帮助实现企业内部员工知识分享与积累、智能客服等多种功能场景,也适用于个人知识库场景。目前开源版已达到 GitHub 1500+ stars ,用户好评如潮,欢迎体验~

- GitHub: https://github.com/casibase/casibase
- 官网文档: https://casibase.org

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1004201

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX