
知识蒸馏
文章平均质量分 78
星竹紫兰
绿色氧
展开
-
【知识蒸馏2018】Knowledge Transfer via Distillation of Activation Boundaries Formed by Hidden Neurons
知识蒸馏论文概述原创 2022-06-30 12:04:31 · 1447 阅读 · 1 评论 -
【2021自我知识蒸馏】Extracting knowledge from features with multilevel abstraction
【2021.12.8自我知识蒸馏】Extracting knowledge from features with multilevel abstraction一· 本文框架(LFMA)二. 框架具体1.额外层:Extra Layer2.集成3.损失函数4.特征裁剪三. 实验一· 本文框架(LFMA) 从多级抽象的特征中提取知识(LFMA):Extracting Knowledge from Features with Multilevel Abstraction 自蒸馏 (SKD) : Sel原创 2022-03-26 16:41:05 · 3936 阅读 · 0 评论 -
【2020】自我蒸馏分类改进Regularizing Class-wise Predictions via Self-knowledge Distillation
【2020】Regularizing Class-wise Predictions via Self-knowledge Distillation具有数百万个参数的深度神经网络可能由于过拟合而泛化能力较差。本文通过自我蒸馏增加正则化(惩罚项),从而减轻过拟合。具体:取同一分类的不同样本进行分类预测,要求产生相似的错误分类,而传统分类未考虑预测分布的一致性。结果:防止过拟合+减少内部阶级差异。...原创 2022-02-21 16:29:59 · 1316 阅读 · 0 评论 -
【2022.1自蒸馏】ADAPTIVE IMAGE INPAINTING自适应图像修复简要概述
【2022.1自蒸馏】ADAPTIVE IMAGE INPAINTING自适应图像修复提出交叉蒸馏+自蒸馏cross (inter-network) and self (intra-network) distillation交叉蒸馏:从包含缺失区域特征的完整信息的辅助网络转移知识,将一个现成的未完成的自编码器训练去重构GT(Ground Truth地面实况)图像...原创 2022-02-18 10:50:41 · 2237 阅读 · 0 评论 -
【2022.1】基于自蒸馏和负采样的自监督异常检测
【2022.1自蒸馏】Self-Supervised Anomaly Detection by Self-Distillation and Negative Sampling预备知识:测试数据和训练数据都来自同样的分布(称作分布内,in-distribution)例如我们利用一组猫、狗照片训练一个猫、狗分类器。然而,部署的模型在实际使用中总是会遇到一些不属于封闭世界类别的图片,例如老虎。或者也会遇到一些和训练图片视觉上大相径庭的照片,例如卡通猫。模型应当如何去处理这些不属于训练分布的图片(即分布外样原创 2022-02-17 12:18:24 · 2392 阅读 · 0 评论 -
【2021知识蒸馏】Show, Attend and Distill:Knowledge Distillation via Attention-based Feature Matching
【2021自我蒸馏】Show, Attend and Distill:Knowledge Distillation via Attention-based Feature Matching1.问题背景2.模型3.实验结果4.创新点与总结1.问题背景 知识蒸馏:从老师到学生的学习,一般人工选择老师和学生的中间特征。然而,手动选择经常构建无效的链接,限制了蒸馏的改进。已经有人试图解决这个问题,但在实际情况下确定有效的联系仍然具有挑战性。 本文:利用基于注意力的元网络学习特征之间的相对相似性,原创 2021-12-21 11:57:12 · 1932 阅读 · 0 评论 -
标签平滑论文笔记:2020《When Does Label Smoothing Help?》
这里写目录标题标签平滑:这里记倒数第二层的激活函数后输出值(在最后权重和softmax概率分布之前的值)为 x 。(倒数第二层偏置是1)pk是样本属于第k个类的概率值,wk表示最后一层对应第k类的权重。把wk看成第k类的模板(template),xTwk的值可以看成欧式距离的一种度量(负号):xTx在计算softmax输出时被分离出来,wkTwk是每个类的常数。此样本对应的标签的第k个类的概率值是yk(one-hot硬标签)。这个网络的损失函数(交叉熵):标签平滑:平滑参数:α鼓励网原创 2020-10-03 21:16:21 · 2202 阅读 · 0 评论 -
2020知识蒸馏 《Channel Distillation: Channel-Wise Attention for Knowledge Distillation》论文笔记
论文笔记《Channel Distillation: Channel-Wise Attention for Knowledge Distillation》知识蒸馏2020论文地址:[https://arxiv.org/abs/2006.01683](Channel Distillation: Channel-Wise Attention for Knowledge Distillation, Zaida Zhou, Chaoran Zhuge, Xinwei Guan, Wen Liu, 2020)原创 2020-09-18 11:05:46 · 2721 阅读 · 1 评论 -
知识蒸馏:大神Hinton《Distilling the Knowledge in a Neural Network》论文笔记 2015
知识蒸馏:《Distilling the Knowledge in a Neural Network》 2015论文第5部分:在一个特大的数据集上训练一个特殊的网络集成1.问题:网络识别问题2.训练过程2.1通用模型:2.2专有模型:2.2.1专有模型的训练集构造过程2.2.2训练专有模型3.测试过程4.结果15.结果2论文第5部分:在一个特大的数据集上训练一个特殊的网络集成1.问题:网络识别问题前提:训练集JFT,有约1亿个图片。谷歌有个基线模型(Google’s baseline model),原创 2020-09-14 20:18:31 · 1704 阅读 · 0 评论