快来了解面对图像识别的知识蒸馏技术

随着互联网技术的发展,文本、图像和视频等海量的数据信息伴随着人类的生产生活。深度学习方法凭借其高层次的信息提取和表达能力,在大数据学习以及推理决策方面发挥着至关重要的作用。典型的应用场景包括图像分类、目标检测、语义分割和自动驾驶等等,无不与人类的生活息息相关。

本推文介绍了中国科学院计算技术研究所杨传广博士的研究成果,其博士学位论文《面向图像识别的知识蒸馏技术研究》获得CCF博士学位论文激励计划提名。该论文聚焦轻量级网络结构和三种知识蒸馏算法现存的问题和挑战,旨在提升轻量级网络在图像识别任务上的准确率,使得优化后的轻量级网络既保留了计算复杂度低,推理速度快的优势,同时满足了任务精度的要求。

论文下载地址:奖励动态 - 中国计算机学会https://www.ccf.org.cn/Awards/Awards/

本文作者为龚裕涛,校对为王一鸣。

一、研究背景

伴随深度学习技术的快速发展,深度卷积神经网络在计算机视觉领域取得突破性进展,AlexNet、VGG-16、ResNet等模型具有卓越的表现。然而,这些高性能模型普遍面临参数量庞大和计算复杂度高的困境,导致其难以部署在移动端等资源受限设备。尽管MobileNetV2等轻量级网络通过3.5M参数和0.3GFLOPs计算量实现移动端部署,但其识别准确率显著低于大型模型,形成模型复杂度与性能的二元对立矛盾。当前,模型压缩技术,剪枝、量化、知识蒸馏等虽部分缓解了这一问题,但在保持轻量化优势的同时有效提升模型精度仍是有待解决的核心挑战。该论文的研究目的就在于提升轻量级网络准确率,实现计算效率与识别性能的同时优化,为边缘计算设备提供兼具实时响应和高精度的视觉解决方案,解决如图1这种模型复杂度和性能的二元对立矛盾。

图1 模型复杂度与性能之间的困境

二、研究内容

博士学位论文的研究围绕轻量级网络结构和三种知识蒸馏算法现存的问题和挑战展开,本推文将详细进行介绍。

(1) 基于混合连通性的轻量级网络结构

现有轻量级网络结构的特征聚合模式存在冗余度高的问题,导致网络在识别时效率低。该研究提出一种混合连通性的特征聚合模式,如图2所示。该模式在全局使用密集连接,对先前模块产生的所有输出按通道维度进行拼接,在局部使用残差连接,在模块内部进行特征图之间元素级的相加。混合连通性的特征聚合既可以享受到 DenseNet的高效特征学习能力,又可以具备 ResNet的参数共享机制,同时解决了DenseNet结构冗余度高的问题。

图2 混合连通性示意图

在图像数据库(ImageNet)和CIFAR-100数据集上,该研究提出的HCGNet凭借更少的参数量和计算复杂度超越了流行的ResNet和DenseNet等网络。与DenseNet相比,HCGNet获得了2.3%的ImageNe准确率提升和1.75倍的加速,表明HCGNet具有更好的识别效率,冗余度低。

(2)自监督增强的离线知识蒸馏

现有离线知识蒸馏算法通常只在原始任务上进行蒸馏,因此传递的知识存在高度任务导向的特点,导致模型易产生过拟合的问题。该研究在离线知识蒸馏中引入了一种自监督增强的辅助任务来引导教师网络和学生网络产生自监督增强的知识分布。

图3 自监督增强方法 HSSAKD 和知识类型示意图

有监督和自监督任务都是分类问题,该研究通过笛卡尔积将有监督和自监  督两个标签空间进行混合,从而建模两个任务的交互。形式上,给定一个N分类的有监督任务和一个M分类的自监督任务,该研究将两者进行混合并得到一个N*M分类的联合任务,其中每一个标签是一个2元组,包括一个有监督标签和一个无监督标签,如图3所示。该研究将此联合任务命名为自监督增强的任务,由于有监督分类是一个主任务,自监督是被引入来增强有监督任务的辅助任务,由此可以得到一个联合的类别概率分布,作为一种新型的知识形式。图3表现了联合的标签空间,通过学习和蒸馏自监督增强的知识,网络可以从自监督和有监督表征学习中获益。

在图像分类数据集CIFAR-100和ImageNet上,HSSAKD训练的轻量级网络结构分别获得了6.0%和2.2%的平均准确率提升。在HCGNet-C网络的监督下,HCGNet-B通过HSSAKD方法在ImageNet数据集上相比基线提升1.7%的准确率。在微小版ImageNet数据集上的零样本迁移实验结果上,HSSAKD相比基线获得了7.9%的准确率增益。实验结果显示HSSAKD不仅在训练任务上超越了同类方法,在零样本的迁移实验上也具备优越的表现,表明此方法提升了网络的泛化能力,缓解了过拟合问题。

(3)相互对比学习引导的在线知识蒸馏

现有在线知识蒸馏算法仅在类别概率层面进行蒸馏,缺乏在高阶特征关系层面的建模能力,导致模型学习到的视觉表征较差。该研究提出一种相互对比学习框架,在多个网络之间使用对比学习来促进特征交互。

图4  相互对比学习训练结构示意图

图4展示了相互对比学习(MCL)的训练框架结构,该框架包含多个协同训练的神经网络,如f1f2,每个网络由特征提取器和分类器组成,并配备额外的特征映射模块来生成对比学习所需的低维特征向量。在训练过程中,输入图像,如"狗"作为锚样本,经过不同网络提取特征后,一方面通过跨网络对比学习实现特征交互,例如将网络f1的锚特征与网络的f2正/负样本特征进行对比,通过InfoNCE损失拉近同类特征、分离异类特征;另一方面通过KL散度实现网络间类别概率分布Z1Z2的相互蒸馏。这种双重交互机制使多网络在训练中相互促进,而测试时仅需保留性能最优的单网络,既提升了表征能力又不增加推理开销。

图5 逐层相互对比学习示意图

在相互对比学习的基础上,该研究提出了了逐层相互对比学习的完整架构,该架构在多个网络的不同层级间建立了全面的知识交互机制。如图5所示,两个网络通过各自的特征提取模块,分阶段提取特征,并在每个层级通过特征提取模块生成层级特征表示。系统通过元素级操作,相加或相乘融合多层特征,实现跨网络、跨层级的对比学习。同时,各层级的类别概率分布被加权融合形成"虚拟教师"信号,与传统的输出层知识蒸馏相结合。这种设计创新性地将单层对比学习扩展到网络全层级,通过端到端训练同时优化特征级对比和输出级蒸馏,实现了多层次的知识迁移,使不同深度、不同网络的特征表示能够相互促进,从而显著提升了模型的表征能力。测试阶段仍保持单网络部署,确保推理效率不受影响。

在图像分类数据集CIFAR-100和ImageNet上,L-MCL训练的轻量级网络结构相比基线分别获得了4.7%和1.6%的平均准确率提升。HCGNet通过L-MCL方法 在ImageNet数据集上相比基线得到了1.2%的准确率提升。L-MCL训练的特征提取器迁移到COCO-2017数据集上的目标检测和分割任务上相比基线分别获得了1.7%和1.8%的检测精度提升,表明了相互对比学习引导网络学习到了优越的视觉表征。

(4)图像混合引导的自知识蒸馏

现有自知识蒸馏算法缺乏对图像混合的一致性约束,导致模型不能产生鲁棒的预测分布。该研究引入图像混合技术Mixup,并将其与自蒸馏规则化为一个联合的框架,名为图像混合引导的自知识蒸馏。

图6展示了MixSKD方法的完整架构,该方法创新性地将图像混合与自知识蒸馏相结合,通过三个核心机制实现高效知识迁移:首先,构建多阶段网络架构(φφk),每个阶段配备特征对齐模块(ζ)和辅助分类器(g),对原始图像对(xi,xj)进行特征和逻辑分布的线性插值融合;其次,设计双重蒸馏机制,在特征空间使用L2损失和对抗判别器约束插值特征与Mixup特征的一致性,在概率空间通过自教师网络聚合多尺度特征生成软标签,并用KL散度对齐分布;最后,采用动态训练流程,通过Mixup生成混合样本并接受三路监督。其创新性在于将Mixup的数据增强效应转化为多层次的知识蒸馏信号,实现了跨样本、跨层级的自知识迁移。

图6 图像自知识蒸馏示意图

在图像分类数据集CIFAR-100和ImageNet上,MixSKD训练的轻量级网络结构相比基线分别获得了3.0%和1.3%的平均准确率提升。HCGNet通过MixSKD方法在ImageNet数据集上相比于基线得到0.8%的准确率提升。通过对样本的攻击实验以及对预测标签的对数概率直方图统计,MixSKD提升了网络预测分布的鲁棒性。

  • 作者介绍

杨传广,中国科学院计算技术研究所工作,曾经是该所硕博连读生,研究领域包括计算机视觉、模型轻量化与加速等。

  • 导师介绍

徐勇军,博士、博士生导师、研究员,中国科学院计算技术研究所正高级工程师 , 中国科学院计算技术研究所专项技术研究中心主任,中科(厦门)数据智能研究院院长。专注信号大数据处理、人工智能处理等领域的研究及应用工作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值