
知识蒸馏
文章平均质量分 89
computer_vision_chen
个人简介:计算机视觉硕士。热爱编程,中医。努力提高计算机视觉算法、网络摄像头开发、C++音视频开发、嵌入式开发技术。
展开
-
EfficientDet:Scalable and Efficient Object Detection中文版 (BiFPN)
模型效率在计算机视觉中变得越来越重要。本文系统地研究了用于目标检测的神经网络架构设计选择,并提出了几个关键的优化方法来提高效率。首先,我们提出了**加权双向特征金字塔网络(BiFPN),可以轻松快速地进行多尺度特征融合;其次,我们提出了一种复合缩放方法,同时统一调整所有骨干网络、特征网络和框/类别预测网络的分辨率、深度和宽度。**基于这些优化和更好的骨干网络,我们开发了一系列名为 EfficientDet 的新型目标检测器,这些检测器在广泛的资源约束范围内始终比先前技术取得更好的效率。原创 2023-12-21 17:35:32 · 2115 阅读 · 0 评论 -
Distilling the Knowledge in a Neural Network 中文版 (含: bibtex格式的引用)
提高几乎所有机器学习算法性能的一个非常简单的方法是在相同的数据上训练许多不同的模型,然后平均它们的预测结果。不幸的是,使用整个集成模型进行预测很麻烦,并且可能计算成本太高,无法部署给大量用户,特别是如果单个模型是大型神经网络。Caruana和他的合作者[1]已经证明,可以将集成中的知识压缩到一个更容易部署的单个模型中,我们使用不同的压缩技术进一步开发了这种方法。我们在MNIST上取得了一些令人惊讶的结果,我们表明,通过将集成模型中的知识提取到一个单个模型中,我们可以显著改善一个使用频繁的商业系统的声学模型。原创 2023-12-19 21:36:07 · 651 阅读 · 0 评论 -
Refine Myself by Teaching Myself:Feature Refinement via Self-Knowledge Distillation 中文版 (bibtex引用格式)
深度神经网络(DNNs)由于卷积神经网络的指数级发展,已被应用于计算机视觉的各个领域[7,27,12]。为了在移动设备上取得成功,视觉任务需要克服有限的计算资源[11,42]。为解决这一问题,模型压缩已成为一个关键的研究任务,而知识蒸馏是一项突出的技术,具有良好的压缩效果和相当的性能[9]。知识蒸馏是一种从预训练的教师网络向学生网络转移知识的方法,使得在部署阶段较小的网络可以取代一个大型教师网络。知识蒸馏通过接收教师网络的知识,可以利用以下方式:1)作为软标签的类别预测[9];原创 2023-12-14 17:34:25 · 1358 阅读 · 0 评论 -
Self-Distillation from the Last Mini-Batch for Consistency Regularization中文版 (含:bibtex格式的引用)
知识蒸馏(Knowledge distillation,KD)展示了强大的潜力,作为一种强有力的正则化策略,通过利用学习的样本级软目标来提升泛化能力。然而,在现有的知识蒸馏中,使用复杂的预训练教师网络或一组同行学生既耗时又计算成本高昂。已经提出了各种自我蒸馏方法以实现更高的蒸馏效率。然而,它们要么需要额外的网络架构修改,要么难以进行并行化。原创 2023-12-12 19:01:13 · 1015 阅读 · 0 评论 -
Distilling Knowledge via Knowledge Review 中文版
知识蒸馏将知识从教师网络传输到学生网络,旨在极大提高学生网络的性能。先前的方法大多集中在提出特征转换和损失函数,用于同一级别特征之间的改进效果。我们不同地研究了教师网络和学生网络之间跨级连接路径的因素,并揭示了其重要性。在知识蒸馏中,我们首次提出了跨阶段连接路径。我们的新的评估机制既有效又结构简单。我们最终设计的嵌套和紧凑框架需要极少的计算开销,在各种任务中表现优于其他方法。我们将我们的方法应用于分类、目标检测和实例分割任务。所有这些任务都显著见证了学生网络性能的提升。原创 2023-12-06 10:05:27 · 1257 阅读 · 0 评论 -
知识蒸馏的蒸馏损失方法代码总结(包括:基于logits的方法:KLDiv,dist,dkd等,基于中间层提示的方法:)
【代码】知识蒸馏dist和KLDiv。原创 2023-12-03 20:44:19 · 3813 阅读 · 0 评论 -
知识蒸馏代码实现(内容:知识蒸馏模型识别MNIST手写数字体,自定义MLP网络做为教师和学生网络,训练结果保存在log文件中,不同蒸馏损失计算方法得到的结果对比)
里面有12种最新的知识蒸馏算法。原创 2023-11-30 22:03:57 · 4159 阅读 · 0 评论 -
全网最细图解知识蒸馏(涉及知识点:知识蒸馏实现代码,知识蒸馏训练过程,推理过程,蒸馏温度,蒸馏损失函数)
hard targets的预测结果不科学,因为马和驴比马和汽车相似的多。所以驴和汽车都是0,没有表现出这个信息,所以要用soft targets.第二行和第三行是使用百分之3的训练样本并分别用hard target和soft target,结果显示。soft target使我们常用的概率版的标签值。比如输入下面的图片预测。教师网络预测出的soft target具有很多信息。此时学生网络已经训练好,把X输入到学生网络得到结果。学生网络的输入是教师网络的输出。【精读AI论文】知识蒸馏。最后对这两项加权求和。原创 2023-11-30 10:26:03 · 18358 阅读 · 5 评论 -
知识蒸馏测试,总结,项目代码(教师模型和学生模型分别是Resnet101和Resnet18,数据集ImageNet中的Dog Breed Identification数据集)
说明当学生网络和教师网络训练准确率相差不多时,要给hard_loss权重大一点。原创 2023-12-02 10:54:25 · 1651 阅读 · 2 评论 -
VanillaKD:Revisit the Power of Vanilla KnowledgeDistillation from Small Scale to Large Scale 中文版
到目前为止,文献中大部分现有的知识蒸馏(KD)方法都是针对小规模基准(例如CIFAR[19])和小型师生对(例如Res34-Res18[2]和WRN40-WRN16[10])进行了定制。然而,实际的下游视觉任务[20,21,22]需要对骨干模型进行在大规模数据集(例如ImageNet[23])上的预训练,以实现最先进的性能水平。仅仅在小规模数据集上探索知识蒸馏(KD)方法可能无法在实际场景中提供全面的理解。原创 2023-12-02 15:53:12 · 975 阅读 · 0 评论