如何进行大模型知识蒸馏

40 天前
 Suger828

网上的说法都是生成软目标,但是如果调用 gpt 的话不能生成软目标吧

3108 次点击
所在节点    程序员
7 条回复
xstress
40 天前
distill 的模型不是针对于 qwen 、llama 的吗
dianso
40 天前
普通人类别想了,这东西太费钱
houshuu
40 天前
很多年没干蒸馏了,不知道现在还是不是这样。
软目标的设置终究是为了更多的得到当前概率分布和目标概率分布的差值,那么在这个基础上如果能有另外手段来计算两个回答间的散度即可,不需要一定要有个确定的目标。
机器学习手法有很多假设性的东西,设定一个公式自圆其说很多时候就行了。比如我直觉上第一个想到的,用另外一个模型把学生信号和教师信号语义分别分解到另外一个统一空间内,然后算下距离啥的。
蒸馏也算个老东西了,llm 蒸馏可能搞不来但其他视觉模型啥的以前个人都是可以搞的
ruidoBlanco
39 天前
为什么都翻译成「蒸馏」

「提炼」不是更合适吗?

难不成搞翻译的只剩下机器了吗。
googlefans
39 天前
这招听高的 抄近路
thinszx
39 天前
@ruidoBlanco 是从知识蒸馏过来的,这个概念比大模型出现的早得多,而且蒸馏和提炼本身也没啥差啊
rogerer
38 天前
@dianso 蒸馏还好,要去训练的模型不是 LLM 的规模。
---
现在大家用 LLM 的结果去蒸馏,蒸馏学习的目的是让更大的模型作为小模型的 supervisor ,这样能让小模型学到大模型的能力,所以直接学输出也是可以的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://tanronggui.xyz/t/1108559

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX