V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
drymonfidelia
V2EX  ›  程序员

为什么 LLM 模型不能按语言拆分,英文问题就只用英文语料训练出来的模型、日文问题就只用日文语料训练出来的模型,这样不是可以大幅减少参数量?

  •  3
     
  •   drymonfidelia · 1 天前 · 2752 次点击
    44 条回复    2025-02-02 19:29:22 +08:00
    dji38838c
        1
    dji38838c  
       1 天前
    太低估别人了。
    觉得连这么简单的东西都没有尝试过
    没有什么用的
    drymonfidelia
        2
    drymonfidelia  
    OP
       1 天前
    @dji38838c 我知道别人尝试过了,我的问题是为什么没有什么用?
    dalaoshu25
        3
    dalaoshu25  
       1 天前   ❤️ 2
    除了英文,其他语言没什么信息量吧。特别是汉语语料,全是垃圾。
    chingyat
        4
    chingyat  
       23 小时 54 分钟前
    其他语言的语料加起来也不到英语的零头吧
    user8341
        5
    user8341  
       23 小时 52 分钟前
    这样做连基本的翻译功能都没有了。
    fcten
        6
    fcten  
       23 小时 40 分钟前
    楼主可知道语言模型最初的目的是为了翻译……
    其次,这样做并不能大幅减少参数量,道理就和你掌握一门新语言并不需要从 1+1=2 开始学习一样。大量的知识是与语言无关的。
    再其次,清洗训练数据会花费大量的时间。而且更小的训练集 = 更差的模型。
    drymonfidelia
        7
    drymonfidelia  
    OP
       23 小时 39 分钟前
    @user8341 LLM 翻译虽然很通顺但不准确,以前用 GPT 翻译经常把意思改了
    neteroster
        8
    neteroster  
       23 小时 34 分钟前
    因为模型能在语言间泛化,不仅包括人类语言,也包括编程语言。而且训练多种语言之后可以承担很多跨语言任务。

    #7 > LLM 翻译虽然很通顺但不准确,以前用 GPT 翻译经常把意思改了

    当前 SOTA 模型在常见语言互译上已经可以做到相当高的精度,特别是在上下文充足的情况下,已经不是传统的翻译模型可以企及的了。
    windyboy
        9
    windyboy  
       23 小时 24 分钟前
    基本都是英语材料训练的
    语言翻译只是一个副产品
    user8341
        10
    user8341  
       22 小时 24 分钟前   ❤️ 1
    @windyboy

    你这是自己的猜测,还是实际参与了,还是有确切的数据?

    据我所知 24 年 5 月发布的 DeepSeek-V2 的训练数据中文比英文还多 12%
    fun201108
        11
    fun201108  
       22 小时 6 分钟前
    从使用角度来看,与语言无关,加“翻译”两个字就能相同问题,英文问英文答,英文问中文答,中文问中文答,中文问英文答
    windyboy
        12
    windyboy  
       21 小时 25 分钟前   ❤️ 2
    @user8341 deepseek 不是用别人的模型来训练的吗?
    TimePPT
        13
    TimePPT  
       21 小时 24 分钟前
    有研究表明,预训练时使用多语言语料是有助于智能提升,且多语言在底层是 Align 的。
    daweii
        14
    daweii  
       21 小时 2 分钟前 via iPhone
    一个特别有意思的事情是人类不同的语言的结构都是特别相似的,特别是名词。毕竟我们都生活在同一个地球上,看着同一个太阳。

    一个更有意思的应用就是之前的无对齐语料翻译。方法就是比如说用中文的语料训练一个模型,然后用英语训练一个模型,然后用其中的阿拉伯数字 1 ,2 ,3……9 建立两个语言模型的联系。

    话说回来,现在基本上都是英语数据为主,其他数据都只是个添头。但是一个添头得数据就能多让模型处理一个语言,所以说对训练来说往往是利大于弊。
    cnt2ex
        15
    cnt2ex  
       20 小时 31 分钟前
    因为 LLM 的意思是 LARGE language model ,不仅仅是 language model 。突出的就是要大模型,大数据集。
    弄成小模型小数据集效果反而不会那么好。
    yoghurtguy
        16
    yoghurtguy  
       20 小时 6 分钟前 via iPhone
    翻译只占参数量的一小部分,只需要告诉他苹果是 Apple ,不需要再用中文告诉他苹果是圆圆的,通常红色的,上面有个把的水果
    xziar
        17
    xziar  
       20 小时 4 分钟前
    参数量和训练语料是两码事,还是说你是指 chinchilla 的 scaling rule ?
    目前来看模型智慧水平还是随训练数据量递增的,想要参数量少,直接蒸馏到小模型不就好了。
    wdlth
        18
    wdlth  
       19 小时 57 分钟前
    如果只用单个语言的资料去建立大模型,那怎么算完整呢?比如历史记录大多数都是当地语言的,但对历史的研究可以由用不同的语言的人进行发表。
    并且很多的翻译本身就是音译,那算是外语呢还是本土语言?
    mumbler
        19
    mumbler  
       19 小时 54 分钟前
    目前最可行的方法就是蒸馏,用大模型生成数据去训练小模型,o3 mini 就是 o3 或者 o4 生成数据训练的,只需要 20B 就能达到 2000B 的 80%水平,这样成本大大降低
    dayeye2006199
        20
    dayeye2006199  
       16 小时 9 分钟前
    效果极差。

    现在主流都是多语言,模型可以自己学会语言的对齐方法。这种学习方法可以让训练语料极少的小语种都获得不错的效果。
    你这完全是反着来。
    lovestudykid
        21
    lovestudykid  
       15 小时 3 分钟前   ❤️ 2
    @windyboy #12 建议你到纳斯达克发布这个重大发现,拯救 NVDA 的股价
    fatigue
        22
    fatigue  
       14 小时 44 分钟前   ❤️ 1
    搞清楚先后顺序,就是发现参数量上去了,模型才有效,即使是单个语言。模型的能力和参数不是线性关系的,大概的门槛是百万级,低于这个数量模型性能会卡在这里,当提升超过后,模型性能会突然大幅提升,人工智能领域叫顿悟/领悟,英文单词叫 Grokking ,很多人研究,但没人知道原因,只有一些统计推测
    KenThompson1729
        23
    KenThompson1729  
       11 小时 49 分钟前
    @windyboy 从你这一句话就可以判断你完全不懂 LLM
    KenThompson1729
        24
    KenThompson1729  
       11 小时 46 分钟前
    reasoning 能力是和语言无关的
    mhycy
        25
    mhycy  
       11 小时 35 分钟前   ❤️ 1
    LLM 的参数不是用于存储语言,而是用于存储“概念”一个概念自身的维度会比某个语言对应单词的维度更多,语言基本就只是输出时候的某种“偏置”罢了
    lrigi
        26
    lrigi  
       11 小时 35 分钟前 via iPhone
    其实也可以,但你要是问一个中英混合句怎么办🤔而且单个语言模型参数可能下来了,多个语言,模型参数*N 不是又上去了😆而且模型基本遵循残暑越大能力越强,为了效果单语言模型可能也需要扩充到 6710000B 大小,为啥不顺便加入多语言,能够提升模型的综合能力。简单来讲参数下去了,效果也下去了。想效果好就要加数据,最好是多类型数据的混合
    Dispatcher
        27
    Dispatcher  
       11 小时 6 分钟前
    今天看到的项目,isbn 可视化:

    https://phiresky.github.io/blog/2025/visualizing-all-books-in-isbn-space/

    看到你就知道了,中文信息只占全世界 1.x%不是瞎掰。刨去骂人的脏话、官话、套话、恭维的话,实际有用的可能只有 0.00x%了。训练个屁哦?
    angryfish
        28
    angryfish  
       11 小时 1 分钟前
    个人觉得,大模型根本就没有语言这个概念。他只知道 token 或字符?
    yukino
        29
    yukino  
       10 小时 8 分钟前 via Android   ❤️ 4
    @Dispatcher 这是何等的傲慢🤡
    CodeAllen
        30
    CodeAllen  
       9 小时 26 分钟前
    语言是思维的媒介,不应该让 llm 区分语言,而且有个很大问题是高质量的训练数据大部分都是英文,按 op 的话说,那英文 llm 能力会强到可怕,但是小语种会弱很多,甚至英文 llm 在学习了语言知识之后完全可以替代小语种 llm 。
    AslanFong
        31
    AslanFong  
       9 小时 8 分钟前
    都是字符吧,最底层还是统计那套原理,给英文和中文有什么区别
    Leon6868
        32
    Leon6868  
       8 小时 59 分钟前
    1. 大语言模型的根本原理是从语言表象拟合人类深层思维逻辑,并以此预测语言表象。
    2. 相同架构下决定模型拟合能力的根本因素是参数数量。

    由此可见,参数数量是模型能力的根本,不论你拿任何数据训练任何模型,模型越小能力越差,模型越大能力越强;而为了提升模型能力,需要让模型学习尽可能多的人类语料,从而拟合深层思维,所以语料越多越丰富越好。
    amosasas
        33
    amosasas  
       8 小时 58 分钟前
    @angryfish 中文和英文的 token 是不一样的,我猜可能是因为中英文在高维空间中是某一种对称,在大量英文资料和少量中文资料上训练后,生成的模型相当于一种在两个对称空间中的映射,例如轴对称的双曲线那种感觉,所以我们用中文对话,模型就用在英文空间中的映射对称到中文空间中了。
    Leon6868
        34
    Leon6868  
       8 小时 54 分钟前
    @Leon6868 #32 OP 可以问问 Deepseek R1 ,它比我回答得更详细。
    blueboyggh
        35
    blueboyggh  
       8 小时 12 分钟前 via Android
    @Dispatcher 别人说的中文我不知道,您说的中文确实都是垃圾
    gorira
        36
    gorira  
       7 小时 54 分钟前
    像是党校的计算机专业新生会问的问题
    ShadowPower
        37
    ShadowPower  
       7 小时 40 分钟前
    @Dispatcher 绝大多数中文网文没有 ISBN ,英语世界想要盈利就只能走传统出版流程。
    baka
        38
    baka  
       6 小时 58 分钟前   ❤️ 1
    过了个年,这里成了 LLM 民科论坛?
    LanhuaMa
        39
    LanhuaMa  
       6 小时 41 分钟前
    @user8341 #10 如果真是这样的话说明中文语料真的有够垃圾。Deepseek 用中文推理的表现完全不如英文,有的时候叫它做最基本的小学四则运算都能搞错
    flyqie
        40
    flyqie  
       4 小时 32 分钟前 via Android
    @LanhuaMa #39

    目前各类模型对于数学这块都不行吧?
    flyqie
        41
    flyqie  
       4 小时 31 分钟前 via Android
    @flyqie #40

    或者说都不太行,这跟语料本身有关系吗?
    ShadowPower
        42
    ShadowPower  
       3 小时 51 分钟前 via Android
    @LanhuaMa 现在 o3 mini 显示思考过程了,美国人发现用英文提问有时候会出现中文思考。他们自己的解释是数学相关的资料大多数是中文的。
    agagega
        43
    agagega  
       2 小时 42 分钟前 via iPhone
    大语言模型的牛逼之处就在于它能展现出跨语言的学习能力啊,限定语言属于本末倒置了。之前有人搞过纯日语模型,没什么下文了
    Daxian0072
        44
    Daxian0072  
       35 分钟前
    问了一下 deepseek:

    嗯,用户问为什么不能把 LLM 按语言拆分,比如英文问题用英文模型,日文用日文模型,这样参数量会减少。这个问题看起来合理,但可能有些深层原因需要考虑。首先,我需要回忆一下 LLM 的工作原理和多语言训练的优势。

    首先,LLM 通常是基于 Transformer 架构,这种模型在处理不同语言时能够共享一些底层特征,比如语法结构、词汇关系等。多语言训练可以让模型学习到跨语言的通用表示,这可能提升每种语言的性能,尤其是低资源语言,因为它们可以借助高资源语言的数据。比如,西班牙语和意大利语有相似性,模型可能通过共享参数更好地学习它们。

    然后,用户提到拆分语言以减少参数量的想法。表面上看,分开训练每个语言模型,每个模型参数更少,总参数量可能减少。但实际情况可能复杂。比如,如果每个单语模型都达到类似的效果,它们的参数总量可能加起来反而超过多语言模型,因为多语言模型可以共享参数。例如,一个多语言模型有 100B 参数,而 10 个单语模型每个 10B ,总共 100B ,但可能每个单语模型需要更大的参数才能达到多语言模型的性能,导致总参数量更多。

    另外,预训练和微调的成本也是一个因素。分开训练多个模型需要更多的计算资源和时间,尤其是在处理多种语言时,维护多个模型可能不划算。还有,多语言模型在跨语言任务上表现更好,比如翻译或跨语言检索,这是单语模型无法做到的。

    用户可能没有考虑到迁移学习和数据利用的问题。低资源语言在单语模型中可能表现不佳,而多语言模型通过高资源语言的迁移可以提升效果。另外,模型推理时的灵活性,比如处理混合语言输入,这也是多语言模型的优势。

    不过,用户的问题确实有合理之处,比如特定语言优化可能更高效。例如,某些语言可能有独特的结构,单独训练可以更精准。但在实际应用中,平衡参数共享和语言特异性可能需要更复杂的架构,比如在共享参数基础上添加语言特定模块,这可能比完全拆分更有效。

    总结起来,虽然拆分语言可能看似减少参数,但由于共享表示的优势、总参数量的潜在增加、训练维护成本、跨语言能力以及低资源语言的提升等因素,多语言模型通常更高效。不过,针对特定场景可能需要混合方法,比如使用语言适配器,在共享大部分参数的同时,为不同语言添加少量参数,这样在减少冗余的同时保持多语言优势。

    将大型语言模型( LLM )按语言拆分为独立的单语模型看似能减少参数量,但实际上可能得不偿失。以下从技术原理、训练效率和实际应用角度分点解释原因:

    1. 跨语言知识共享的天然优势
    语言间的共性:不同语言之间存在语法、语义和逻辑的共性。例如,英文和法语的句法结构相似性,或中文成语与日文汉字词的关联性。多语言联合训练允许模型通过共享参数学习这些跨语言模式,而非从头学习每种语言的独立特征。

    低资源语言的增强:小语种(如泰语、斯瓦希里语)的语料有限,单独训练效果差。多语言模型通过迁移学习( Transfer Learning )将高资源语言(如英语)的抽象知识迁移到低资源语言,显著提升后者性能。

    2. 参数量未必减少,甚至可能增加
    参数效率悖论:假设一个多语言模型参数量为 100B ,若拆分为 10 个单语模型,每个模型需 10B 参数。但实际中,单语模型要达到同等性能可能需要更大的规模(例如 20B ),导致总参数量反而翻倍( 10×20B=200B )。

    共享表示的压缩效应:多语言模型中,词嵌入层( Embedding )和注意力机制( Attention )的权重是跨语言共享的。例如,中文“猫”和英文“cat”在向量空间中会被映射到相近区域,减少了冗余参数。

    3. 训练与维护成本的权衡
    训练资源消耗:训练 N 个独立单语模型的总算力成本远高于训练一个多语言模型(约为 N 倍)。例如,Meta 的 Llama 3 多语言版本仅需一次训练流程,而拆分成单语模型需重复投入资源。

    动态更新的复杂性:语言随时间演变(如新词汇、网络用语),维护多个独立模型的更新成本远高于统一更新多语言模型。

    4. 实际应用场景的限制
    混合语言输入的普遍性:真实场景中常出现语码混用( Code-Switching ),例如中英混杂的“今天我要 presentation”。单语模型无法处理此类输入,而多语言模型天然适配。

    跨语言任务的必要性:翻译、跨语言检索等任务依赖多语言联合表示。若拆分为单语模型,需额外构建复杂的中间系统(如对齐模块),反而增加系统复杂度。

    5. 技术折中方案:模块化设计
    若仍需降低参数量,可采用以下策略而非完全拆分:

    语言适配器( Adapters ):在共享的主干网络上,为每种语言添加小型适配器层(如仅占 1%参数),动态调整语言特性( Houlsby et al., 2019 )。

    稀疏化训练( MoE ):采用混合专家系统( Mixture of Experts ),让不同语言激活不同子网络,如 Google 的 GLaM 模型在 1.2T 总参数中仅激活 97B 参数/任务。

    总结
    拆分单语模型虽直观,但会牺牲跨语言能力、增加总成本,且未必减少参数。多语言联合训练通过参数共享实现了“1+1<2”的规模效益,而模块化设计(适配器、MoE )进一步平衡效率与性能。未来趋势是更高效的多语言统一架构,而非退回单语孤岛。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1981 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 12:04 · PVG 20:04 · LAX 04:04 · JFK 07:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.