为什么 LLM 模型不能按语言拆分，英文问题就只用英文语料训练出来的模型、日文问题就只用日文语料训练出来的模型，这样不是可以大幅减少参数量？

dji38838c

7 天前

太低估别人了。
觉得连这么简单的东西都没有尝试过
没有什么用的

drymonfidelia

7 天前

@dji38838c 我知道别人尝试过了，我的问题是为什么没有什么用？

dalaoshu25

7 天前

除了英文，其他语言没什么信息量吧。特别是汉语语料，全是垃圾。

chingyat

7 天前

其他语言的语料加起来也不到英语的零头吧

user8341

7 天前

这样做连基本的翻译功能都没有了。

fcten

7 天前

楼主可知道语言模型最初的目的是为了翻译……
其次，这样做并不能大幅减少参数量，道理就和你掌握一门新语言并不需要从 1+1=2 开始学习一样。大量的知识是与语言无关的。
再其次，清洗训练数据会花费大量的时间。而且更小的训练集 = 更差的模型。

drymonfidelia

7 天前

@user8341 LLM 翻译虽然很通顺但不准确，以前用 GPT 翻译经常把意思改了

neteroster

7 天前

因为模型能在语言间泛化，不仅包括人类语言，也包括编程语言。而且训练多种语言之后可以承担很多跨语言任务。

#7 > LLM 翻译虽然很通顺但不准确，以前用 GPT 翻译经常把意思改了

当前 SOTA 模型在常见语言互译上已经可以做到相当高的精度，特别是在上下文充足的情况下，已经不是传统的翻译模型可以企及的了。

windyboy

7 天前

基本都是英语材料训练的
语言翻译只是一个副产品

user8341

7 天前

@windyboy

你这是自己的猜测，还是实际参与了，还是有确切的数据？

据我所知 24 年 5 月发布的 DeepSeek-V2 的训练数据中文比英文还多 12%

fun201108

7 天前

从使用角度来看，与语言无关，加“翻译”两个字就能相同问题，英文问英文答，英文问中文答，中文问中文答，中文问英文答

windyboy

7 天前

@user8341 deepseek 不是用别人的模型来训练的吗？

TimePPT

7 天前

有研究表明，预训练时使用多语言语料是有助于智能提升，且多语言在底层是 Align 的。

daweii

7 天前

一个特别有意思的事情是人类不同的语言的结构都是特别相似的，特别是名词。毕竟我们都生活在同一个地球上，看着同一个太阳。

一个更有意思的应用就是之前的无对齐语料翻译。方法就是比如说用中文的语料训练一个模型，然后用英语训练一个模型，然后用其中的阿拉伯数字 1 ，2 ，3……9 建立两个语言模型的联系。

话说回来，现在基本上都是英语数据为主，其他数据都只是个添头。但是一个添头得数据就能多让模型处理一个语言，所以说对训练来说往往是利大于弊。

cnt2ex

7 天前

因为 LLM 的意思是 LARGE language model ，不仅仅是 language model 。突出的就是要大模型，大数据集。
弄成小模型小数据集效果反而不会那么好。

yoghurtguy

7 天前

翻译只占参数量的一小部分，只需要告诉他苹果是 Apple ，不需要再用中文告诉他苹果是圆圆的，通常红色的，上面有个把的水果

xziar

7 天前

参数量和训练语料是两码事，还是说你是指 chinchilla 的 scaling rule ？
目前来看模型智慧水平还是随训练数据量递增的，想要参数量少，直接蒸馏到小模型不就好了。

wdlth

7 天前

如果只用单个语言的资料去建立大模型，那怎么算完整呢？比如历史记录大多数都是当地语言的，但对历史的研究可以由用不同的语言的人进行发表。
并且很多的翻译本身就是音译，那算是外语呢还是本土语言？

mumbler

7 天前

目前最可行的方法就是蒸馏，用大模型生成数据去训练小模型，o3 mini 就是 o3 或者 o4 生成数据训练的，只需要 20B 就能达到 2000B 的 80%水平，这样成本大大降低

dayeye2006199

7 天前

效果极差。

现在主流都是多语言，模型可以自己学会语言的对齐方法。这种学习方法可以让训练语料极少的小语种都获得不错的效果。
你这完全是反着来。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1108545

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.