为什么 LLM 模型不能按语言拆分,英文问题就只用英文语料训练出来的模型、日文问题就只用日文语料训练出来的模型,这样不是可以大幅减少参数量?

11 天前
 drymonfidelia
4291 次点击
所在节点    程序员
47 条回复
lovestudykid
11 天前
@windyboy #12 建议你到纳斯达克发布这个重大发现,拯救 NVDA 的股价
fatigue
11 天前
搞清楚先后顺序,就是发现参数量上去了,模型才有效,即使是单个语言。模型的能力和参数不是线性关系的,大概的门槛是百万级,低于这个数量模型性能会卡在这里,当提升超过后,模型性能会突然大幅提升,人工智能领域叫顿悟/领悟,英文单词叫 Grokking ,很多人研究,但没人知道原因,只有一些统计推测
KenThompson1729
11 天前
@windyboy 从你这一句话就可以判断你完全不懂 LLM
KenThompson1729
11 天前
reasoning 能力是和语言无关的
mhycy
11 天前
LLM 的参数不是用于存储语言,而是用于存储“概念”一个概念自身的维度会比某个语言对应单词的维度更多,语言基本就只是输出时候的某种“偏置”罢了
lrigi
11 天前
其实也可以,但你要是问一个中英混合句怎么办🤔而且单个语言模型参数可能下来了,多个语言,模型参数*N 不是又上去了😆而且模型基本遵循残暑越大能力越强,为了效果单语言模型可能也需要扩充到 6710000B 大小,为啥不顺便加入多语言,能够提升模型的综合能力。简单来讲参数下去了,效果也下去了。想效果好就要加数据,最好是多类型数据的混合
Dispatcher
11 天前
今天看到的项目,isbn 可视化:

https://phiresky.github.io/blog/2025/visualizing-all-books-in-isbn-space/

看到你就知道了,中文信息只占全世界 1.x%不是瞎掰。刨去骂人的脏话、官话、套话、恭维的话,实际有用的可能只有 0.00x%了。训练个屁哦?
angryfish
11 天前
个人觉得,大模型根本就没有语言这个概念。他只知道 token 或字符?
yukino
11 天前
@Dispatcher 这是何等的傲慢🤡
CodeAllen
11 天前
语言是思维的媒介,不应该让 llm 区分语言,而且有个很大问题是高质量的训练数据大部分都是英文,按 op 的话说,那英文 llm 能力会强到可怕,但是小语种会弱很多,甚至英文 llm 在学习了语言知识之后完全可以替代小语种 llm 。
AslanFong
11 天前
都是字符吧,最底层还是统计那套原理,给英文和中文有什么区别
Leon6868
11 天前
1. 大语言模型的根本原理是从语言表象拟合人类深层思维逻辑,并以此预测语言表象。
2. 相同架构下决定模型拟合能力的根本因素是参数数量。

由此可见,参数数量是模型能力的根本,不论你拿任何数据训练任何模型,模型越小能力越差,模型越大能力越强;而为了提升模型能力,需要让模型学习尽可能多的人类语料,从而拟合深层思维,所以语料越多越丰富越好。
amosasas
11 天前
@angryfish 中文和英文的 token 是不一样的,我猜可能是因为中英文在高维空间中是某一种对称,在大量英文资料和少量中文资料上训练后,生成的模型相当于一种在两个对称空间中的映射,例如轴对称的双曲线那种感觉,所以我们用中文对话,模型就用在英文空间中的映射对称到中文空间中了。
Leon6868
11 天前
@Leon6868 #32 OP 可以问问 Deepseek R1 ,它比我回答得更详细。
blueboyggh
11 天前
@Dispatcher 别人说的中文我不知道,您说的中文确实都是垃圾
gorira
11 天前
像是党校的计算机专业新生会问的问题
ShadowPower
11 天前
@Dispatcher 绝大多数中文网文没有 ISBN ,英语世界想要盈利就只能走传统出版流程。
baka
11 天前
过了个年,这里成了 LLM 民科论坛?
LanhuaMa
11 天前
@user8341 #10 如果真是这样的话说明中文语料真的有够垃圾。Deepseek 用中文推理的表现完全不如英文,有的时候叫它做最基本的小学四则运算都能搞错
flyqie
10 天前
@LanhuaMa #39

目前各类模型对于数学这块都不行吧?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1108545

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX