有没有富哥实际部署了 671b 完全体 R1 的来说说跟 llama3.1:405b 的性能有多大进化

毕竟从 1.5b 到 70b 的其实都是微调的其他模型，只有 671b 才是新的架构

Meteora626

35 天前

官网的就 671 ，直接调 api 就知道差距了

AlohaV2

35 天前

Mac Studio 192G 万万没想到自己也成为性价比之选

qxmqh

35 天前

本地勉强部署了 14b,别的跑不了。太慢了。完全体硬件要求太高了。

huluhulu

35 天前

差距非常大，R1 很强，用过 R1 已经不想用其它 API 了

gaobh

35 天前

富哥也部署不起，全球能部署的就那么几家

Liftman

35 天前

这俩就。。不是一个东西。。。既不在一个年代。也不是一个量级。模型的能力不是只看后面几个 b 。

cat

35 天前

好奇 671b 满血版需要什么硬件才能跑得动？只满足一个人使用

qxmqh

35 天前

@cat 1T 内存和双 H100 80G 显卡五万块钱差不多就够了。

azhangbing

35 天前

@cat h200 20GB 4b 六张 h100 应该够可能要两百多万 404g 好像这样的话就需要 21 张 H200 em 太贵了

cat

35 天前

@azhangbing 被 V2EX 自动加了空格后完全看不懂你的断句了…

azhangbing

35 天前

@cat #13 671b 全量应该是 404G H200 20GB 版本，需要 21 张吧一张你算他 20 万也要 420 万，实际不止美国禁令限制到中国的显卡运过来要花费更多

nagisaushio

35 天前

用 8*3090 跑了 1.58 bit 的 671b 版，跑到 10toks/s ，感觉生成质量基本没有下降

zhongdenny

34 天前

@nagisaushio 你是用 ollama 还是 llama.cpp 来运行的？
我用了 2.22bit 的版本，llama.cpp ，8 卡 4090 ，跑到 3 token/s 。

nagisaushio

34 天前

@zhongdenny 我是 1.58bit ，llama.cpp ，8 卡 3090 ，10tok/s

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.