有没有富哥实际部署了 671b 完全体 R1 的来说说跟 llama3.1:405b 的性能有多大进化

7 天前
 2067
毕竟从 1.5b 到 70b 的其实都是微调的其他模型,只有 671b 才是新的架构
2286 次点击
所在节点    Local LLM
19 条回复
Meteora626
7 天前
官网的就 671 ,直接调 api 就知道差距了
AlohaV2
7 天前
Mac Studio 192G 万万没想到自己也成为性价比之选
qxmqh
7 天前
本地勉强部署了 14b,别的跑不了。太慢了。完全体硬件要求太高了。
huluhulu
7 天前
差距非常大,R1 很强,用过 R1 已经不想用其它 API 了
gaobh
7 天前
富哥也部署不起,全球能部署的就那么几家
Liftman
7 天前
这俩就。。不是一个东西。。。既不在一个年代。也不是一个量级。模型的能力不是只看后面几个 b 。
securityCoding
7 天前
官网不就是满血版。。。
cat
6 天前
好奇 671b 满血版需要什么硬件才能跑得动?只满足一个人使用
qxmqh
6 天前
@cat 1T 内存和双 H100 80G 显卡 五万块钱差不多就够了。
qxmqh
6 天前
@qxmqh 50 万。
nieqibest
6 天前
@qxmqh #9 两张卡肯定不够
azhangbing
6 天前
@cat h200 20GB 4b 六张 h100 应该够 可能要两百多万 404g 好像 这样的话就需要 21 张 H200 em 太贵了
cat
6 天前
@azhangbing 被 V2EX 自动加了空格后完全看不懂你的断句了…
azhangbing
6 天前
@cat #13 671b 全量应该是 404G H200 20GB 版本 ,需要 21 张吧 一张你算他 20 万 也要 420 万,实际不止 美国禁令限制到中国的显卡 运过来要花费更多
nagisaushio
6 天前
用 8*3090 跑了 1.58 bit 的 671b 版,跑到 10toks/s ,感觉生成质量基本没有下降
mingtdlb
6 天前
nagisaushio
6 天前
zhongdenny
5 天前
@nagisaushio 你是用 ollama 还是 llama.cpp 来运行的?
我用了 2.22bit 的版本,llama.cpp ,8 卡 4090 ,跑到 3 token/s 。
nagisaushio
5 天前
@zhongdenny 我是 1.58bit ,llama.cpp ,8 卡 3090 ,10tok/s

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1109310

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX