为什么 LLM 模型不能按语言拆分,英文问题就只用英文语料训练出来的模型、日文问题就只用日文语料训练出来的模型,这样不是可以大幅减少参数量?

7 天前
 drymonfidelia
4179 次点击
所在节点    程序员
47 条回复
dji38838c
7 天前
太低估别人了。
觉得连这么简单的东西都没有尝试过
没有什么用的
drymonfidelia
7 天前
@dji38838c 我知道别人尝试过了,我的问题是为什么没有什么用?
dalaoshu25
7 天前
除了英文,其他语言没什么信息量吧。特别是汉语语料,全是垃圾。
chingyat
7 天前
其他语言的语料加起来也不到英语的零头吧
user8341
7 天前
这样做连基本的翻译功能都没有了。
fcten
7 天前
楼主可知道语言模型最初的目的是为了翻译……
其次,这样做并不能大幅减少参数量,道理就和你掌握一门新语言并不需要从 1+1=2 开始学习一样。大量的知识是与语言无关的。
再其次,清洗训练数据会花费大量的时间。而且更小的训练集 = 更差的模型。
drymonfidelia
7 天前
@user8341 LLM 翻译虽然很通顺但不准确,以前用 GPT 翻译经常把意思改了
neteroster
7 天前
因为模型能在语言间泛化,不仅包括人类语言,也包括编程语言。而且训练多种语言之后可以承担很多跨语言任务。

#7 > LLM 翻译虽然很通顺但不准确,以前用 GPT 翻译经常把意思改了

当前 SOTA 模型在常见语言互译上已经可以做到相当高的精度,特别是在上下文充足的情况下,已经不是传统的翻译模型可以企及的了。
windyboy
7 天前
基本都是英语材料训练的
语言翻译只是一个副产品
user8341
7 天前
@windyboy

你这是自己的猜测,还是实际参与了,还是有确切的数据?

据我所知 24 年 5 月发布的 DeepSeek-V2 的训练数据中文比英文还多 12%
fun201108
7 天前
从使用角度来看,与语言无关,加“翻译”两个字就能相同问题,英文问英文答,英文问中文答,中文问中文答,中文问英文答
windyboy
7 天前
@user8341 deepseek 不是用别人的模型来训练的吗?
TimePPT
7 天前
有研究表明,预训练时使用多语言语料是有助于智能提升,且多语言在底层是 Align 的。
daweii
7 天前
一个特别有意思的事情是人类不同的语言的结构都是特别相似的,特别是名词。毕竟我们都生活在同一个地球上,看着同一个太阳。

一个更有意思的应用就是之前的无对齐语料翻译。方法就是比如说用中文的语料训练一个模型,然后用英语训练一个模型,然后用其中的阿拉伯数字 1 ,2 ,3……9 建立两个语言模型的联系。

话说回来,现在基本上都是英语数据为主,其他数据都只是个添头。但是一个添头得数据就能多让模型处理一个语言,所以说对训练来说往往是利大于弊。
cnt2ex
7 天前
因为 LLM 的意思是 LARGE language model ,不仅仅是 language model 。突出的就是要大模型,大数据集。
弄成小模型小数据集效果反而不会那么好。
yoghurtguy
7 天前
翻译只占参数量的一小部分,只需要告诉他苹果是 Apple ,不需要再用中文告诉他苹果是圆圆的,通常红色的,上面有个把的水果
xziar
7 天前
参数量和训练语料是两码事,还是说你是指 chinchilla 的 scaling rule ?
目前来看模型智慧水平还是随训练数据量递增的,想要参数量少,直接蒸馏到小模型不就好了。
wdlth
7 天前
如果只用单个语言的资料去建立大模型,那怎么算完整呢?比如历史记录大多数都是当地语言的,但对历史的研究可以由用不同的语言的人进行发表。
并且很多的翻译本身就是音译,那算是外语呢还是本土语言?
mumbler
7 天前
目前最可行的方法就是蒸馏,用大模型生成数据去训练小模型,o3 mini 就是 o3 或者 o4 生成数据训练的,只需要 20B 就能达到 2000B 的 80%水平,这样成本大大降低
dayeye2006199
7 天前
效果极差。

现在主流都是多语言,模型可以自己学会语言的对齐方法。这种学习方法可以让训练语料极少的小语种都获得不错的效果。
你这完全是反着来。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1108545

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX