效率与创新并重:频域结合知识蒸馏,显著降低浮点运算成本

2024深度学习发论文&模型涨点之——频域+知识蒸馏

频域知识蒸馏是一种将频域分析与知识蒸馏相结合的技术,它通过提取和传递频域特征来提升模型性能。这种方法在图像生成、时序信号分类等领域显示出了其有效性,尤其是在提升学生模型的泛化能力和分类精度方面。

此外,频域知识蒸馏通过关注高频成分和语义信息,能够在模型训练过程中更有效地传递关键特征,从而在密集预测任务中提高性能。这种技术的应用展示了频域分析在模型优化和知识传递中的潜力。

如果有同学想发表相关论文,小编整理了一些频域+知识蒸馏【论文代码】合集,以下放出部分,全部论文PDF版,需要的同学公重号【AI科研灵感】回复“频域+知识蒸馏”即可全部领取

论文精选

论文1:

A self‐distillation object segmentation method via frequency domain knowledge augmentation

通过频率域知识增强的自蒸馏目标分割方法

方法

  • 构建目标分割网络:高效整合多级特征构建目标分割网络。

  • 像素虚拟教师生成模型:提出像素级虚拟教师生成模型,通过自蒸馏学习将像素级知识传递给目标分割网络,提升泛化能力。

  • 频率域知识自适应生成方法:提出基于频率域知识自适应扩展的数据增强方法,使用可微分量化操作符动态调整可学习的像素级量化表。

  • 卷积神经网络学习规则探讨:探讨了卷积神经网络在学习过程中对频率域知识的偏好。

图片

创新点

  • 像素级虚拟教师生成模型:构建了无需复杂辅助分支结构和匹配策略的像素级虚拟教师生成模型。

  • 频率域知识自适应扩展的数据增强方法:提出了保留信息动态调整的基于频率域知识自适应扩展的数据增强方法。

  • 性能提升:实验结果表明,该方法能有效提升目标分割网络的性能,与典型特征精炼自蒸馏方法相比,平均Fβ和mIoU分别提高了约1.5%和3.6%。

  • 揭示CNN学习规则:揭示了卷积神经网络在训练过程中更倾向于学习低频信息的学习规则。

图片

论文2:

A Teacher-Free Graph Knowledge Distillation Framework with Dual Self-Distillation

无教师的双重自蒸馏图知识蒸馏框架

方法

  • 无教师图自蒸馏(TGS)框架:提出一个不需要教师模型或GNNs的图知识蒸馏框架。

  • 基于MLPs的隐式结构信息利用:在训练中利用图拓扑意识,但在推理中不依赖数据依赖性。

  • 双重知识自蒸馏:包括特征级自蒸馏和标签级自蒸馏,分别从邻居节点到目标节点和从目标节点到邻居节点的知识蒸馏。

  • 边采样策略:为了减少大规模图训练时的内存使用,采用边采样策略进行批量式自蒸馏。

图片

创新点

  • 无需教师模型或GNNs:提出了一个在训练和推理阶段都不依赖教师模型或GNNs的框架。

  • 基于MLPs的框架:完全基于MLPs,通过隐式使用结构信息指导双重知识自蒸馏。

  • 推理效率:TGS框架在推理时比现有GNNs快75×-89×,比传统推理加速方法快16×-25×。

  • 性能提升:在六个真实世界数据集上,TGS通过双重自蒸馏显著提升了普通MLPs的性能,平均提高了15.54%,并且超过了现有的图知识蒸馏算法。

图片


论文3:

DDK: Distilling Domain Knowledge for Efficient Large Language Models

DDK:提取领域知识以提升大型语言模型的效率

方法

  • 领域知识引导的采样策略:通过量化教师和学生模型在不同领域的表现差异来动态调整数据混合,以便在学生和教师模型性能差异较大的领域分配更多的计算资源。

  • 领域差异因子构建:使用预训练的教师模型和正在训练的学生模型在多个领域的验证数据集上计算跨领域的性能差异,并据此构建领域差异因子。

  • 因子平滑更新机制:为了增强知识蒸馏过程的稳定性和鲁棒性,提出了一个因子平滑更新策略,以平滑领域差异因子的更新。

  • 整体优化:结合学生模型参数更新和领域差异因子更新,通过最小化教师和学生模型输出对数几率的差异来进行优化。

图片

创新点

  • 领域特定数据混合研究:首次研究了领域特定数据混合对大型语言模型蒸馏的影响,并有效地将教师网络的领域知识转移到学生模型上。

  • 因子平滑更新策略:提出了一种策略性地增强蒸馏过程对目标领域的关注,有效稳定了领域知识引导的采样过程,使蒸馏过程更加平滑。

  • 多基准数据集的广泛实验:在多个基准数据集上进行了广泛的实验,证明了DDK框架的有效性和泛化能力,特别是在提升学生模型在不同领域的表现方面。

图片


论文4:

Domain-Aware k-Nearest-Neighbor Knowledge Distillation for Machine Translation

面向领域的k最近邻知识蒸馏在机器翻译中的应用

方法

  • 领域感知kNN数据存储构建:使用原始NMT模型对特定领域的训练集进行强制解码,获取多个上下文表示,并与相应的目标标记一起保存到领域感知kNN数据存储中。

  • 领域感知教师模型微调:通过领域感知知识选择对kNN表示进行筛选,训练一个具有特定领域知识的教师模型。

  • 领域感知适配器蒸馏:通过领域感知教师模型进一步提取领域相关知识,并将其从领域感知数据存储中蒸馏到适配器层。

图片

创新点

  • 领域感知kNN-KD方法:提出了一种新的方法,通过在蒸馏过程中筛选出与领域相关的邻域知识进行学习,提高了学生模型的学习效率。

  • 两步蒸馏过程:首先训练一个领域相关的教师模型,然后利用该模型将领域相关的知识蒸馏到适配器层,从而提高翻译性能。

  • 专注于领域知识的学习:通过改进领域特定低频词的翻译,Dk-KD方法在多领域翻译任务中实现了性能的提升。

图片

如果有同学想发表相关论文,小编整理了一些迁移学习+多模态【论文】合集。

需要的同学公重号【AI科研灵感】回复“迁移学习+多模态”即可全部领取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值