V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Suger828
V2EX  ›  程序员

如何进行大模型知识蒸馏

  •  1
     
  •   Suger828 · 22 小时 33 分钟前 · 1509 次点击

    网上的说法都是生成软目标,但是如果调用 gpt 的话不能生成软目标吧

    5 条回复    2025-02-02 17:26:01 +08:00
    xstress
        1
    xstress  
       20 小时 26 分钟前
    distill 的模型不是针对于 qwen 、llama 的吗
    dianso
        2
    dianso  
       20 小时 4 分钟前
    普通人类别想了,这东西太费钱
    houshuu
        3
    houshuu  
       12 小时 22 分钟前 via iPhone
    很多年没干蒸馏了,不知道现在还是不是这样。
    软目标的设置终究是为了更多的得到当前概率分布和目标概率分布的差值,那么在这个基础上如果能有另外手段来计算两个回答间的散度即可,不需要一定要有个确定的目标。
    机器学习手法有很多假设性的东西,设定一个公式自圆其说很多时候就行了。比如我直觉上第一个想到的,用另外一个模型把学生信号和教师信号语义分别分解到另外一个统一空间内,然后算下距离啥的。
    蒸馏也算个老东西了,llm 蒸馏可能搞不来但其他视觉模型啥的以前个人都是可以搞的
    ruidoBlanco
        4
    ruidoBlanco  
       6 小时 49 分钟前
    为什么都翻译成「蒸馏」

    「提炼」不是更合适吗?

    难不成搞翻译的只剩下机器了吗。
    googlefans
        5
    googlefans  
       3 小时 30 分钟前
    这招听高的 抄近路
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2118 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 18ms · UTC 12:56 · PVG 20:56 · LAX 04:56 · JFK 07:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.