有没有富哥实际部署了 671b 完全体 R1 的来说说跟 llama3.1:405b 的性能有多大进化

35 天前
 2067
毕竟从 1.5b 到 70b 的其实都是微调的其他模型,只有 671b 才是新的架构
2805 次点击
所在节点    Local LLM
19 条回复
Meteora626
35 天前
官网的就 671 ,直接调 api 就知道差距了
AlohaV2
35 天前
Mac Studio 192G 万万没想到自己也成为性价比之选
qxmqh
35 天前
本地勉强部署了 14b,别的跑不了。太慢了。完全体硬件要求太高了。
huluhulu
35 天前
差距非常大,R1 很强,用过 R1 已经不想用其它 API 了
gaobh
35 天前
富哥也部署不起,全球能部署的就那么几家
Liftman
35 天前
这俩就。。不是一个东西。。。既不在一个年代。也不是一个量级。模型的能力不是只看后面几个 b 。
securityCoding
35 天前
官网不就是满血版。。。
cat
35 天前
好奇 671b 满血版需要什么硬件才能跑得动?只满足一个人使用
qxmqh
35 天前
@cat 1T 内存和双 H100 80G 显卡 五万块钱差不多就够了。
qxmqh
35 天前
@qxmqh 50 万。
nieqibest
35 天前
@qxmqh #9 两张卡肯定不够
azhangbing
35 天前
@cat h200 20GB 4b 六张 h100 应该够 可能要两百多万 404g 好像 这样的话就需要 21 张 H200 em 太贵了
cat
35 天前
@azhangbing 被 V2EX 自动加了空格后完全看不懂你的断句了…
azhangbing
35 天前
@cat #13 671b 全量应该是 404G H200 20GB 版本 ,需要 21 张吧 一张你算他 20 万 也要 420 万,实际不止 美国禁令限制到中国的显卡 运过来要花费更多
nagisaushio
35 天前
用 8*3090 跑了 1.58 bit 的 671b 版,跑到 10toks/s ,感觉生成质量基本没有下降
mingtdlb
34 天前
nagisaushio
34 天前
zhongdenny
34 天前
@nagisaushio 你是用 ollama 还是 llama.cpp 来运行的?
我用了 2.22bit 的版本,llama.cpp ,8 卡 4090 ,跑到 3 token/s 。
nagisaushio
34 天前
@zhongdenny 我是 1.58bit ,llama.cpp ,8 卡 3090 ,10tok/s

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1109310

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX