Tf-KD：从标签平滑正则化的角度理解知识蒸馏

静静喜欢大白

于 2023-01-30 15:03:48 发布

阅读量763

点赞数

分类专栏： KD论文阅读文章标签： KD 正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/lj2048/article/details/128802104

版权

KD论文阅读专栏收录该内容

53 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文从标签平滑正则化的角度重新审视知识蒸馏，发现知识蒸馏其实是一种可学习的正则化。通过反向知识蒸馏(Re-KD)和缺陷知识蒸馏(De-KD)实验，揭示了教师模型不仅帮助学生，学生也可增强教师。无教师知识蒸馏(Tf-KD)方法提出，无需额外计算成本即可提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者从标签平滑正则化的角度和 KD 关系的角度提出以下两个论点：KD 是一种可学习的标签平滑正则化。标签平滑正则化为 KD 提供了一个虚拟的 Teacher 模型。基于这些分析，本文进一步提出了一种无教师知识蒸馏方法，并在分类任务上验证了其性能。

本文目录

1 把知识蒸馏理解为正则化：从标签平滑正则化的角度重新审视知识蒸馏
(来自 NUS，华为诺亚方舟实验室)
1.1 Tf-KD 论文解读
1.1.1 背景和动机
1.1.2 探索性实验
1.1.3 标签平滑正则化和知识蒸馏
1.1.4 无教师知识蒸馏策略
1.1.5 实验结果

了解本专栏

超级会员免费看

静静喜欢大白

博客等级

码龄8年

数据挖掘领域新星创作者

博客专家认证

535
原创

1614
点赞

4784
收藏

4万+
粉丝

关注

私信

热门文章

分类专栏

最新评论

【科研】如何在读研的道路上快速失败
2501_90545093: 老师您好，看您在文中写到，要好好写日志、周志、月报，请问学术类型的日志、周志、月报，该如何去写呢？如何写才算够好呢？
【掘金运营套路揭露】真心被掘金的套路....
2401_90057770: 不要去相信网络赚钱项目，骗子全部在这个上面来割韭菜了，他们平时宣传的那些谁谁谁又成为合伙人，什么投了多少钱合作什么项目，都是自己人编导的，目的只为割韭菜！！本人花了3000 多，踩了好多坑，游戏掘金，pcdn,某快手等等，他全部都是割韭菜！奉劝大家，别再异想天开！
Python-维度dim的定义及其理解使用
Episode94: 只讲了二维，更高维度的没有将讲，在实际上更多的是三维和四维上取dim=0，dim=1，也就是非h,w维，让我困惑的也是更高维度上的dim问题
【Linux】gpustat监控GPU状态
DongGu.: iterm2
Python-torch.optim优化算法理解之optim.Adam()
yixiaofeihao: Traceback (most recent call last): File "E:\desk\毕业设计\贝叶斯神经网络3.py", line 67, in <module> optimizer = Adam({"lr": 0.001}) ^^^^^^^^^^^^^^^^^^^ TypeError: Adam() takes no arguments 一直报这个错误是什么原因

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

静静喜欢大白 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。