
论文集
文章平均质量分 94
论文总结
我是一个对称矩阵
这个作者很懒,什么都没留下…
展开
-
微小目标检测:《RFLA: Gaussian Receptive Field based Label Assignment for Tiny Object Detection》
微小的物体以其极其有限的像素数量为特点,在计算机视觉社区中始终是一个难以破解的难题。微小目标检测 (TOD) 是最具挑战性的任务之一,由于微小目标缺乏区分特征,通用目标检测器通常无法在 TOD 任务中提供令人满意的结果。原创 2025-03-10 16:45:25 · 1313 阅读 · 0 评论 -
The Devil is in the Channels: Mutual-Channel Loss for Fine-Grained Image Classification-2020.D.C
细粒度图像分类比普通图像分类更难,因为在子类间的视觉相似度很高,一些差异很微小,并且这些差异往往分布在不同区域种。所以设计一种高效的特征信息提取方法去定位微小差异区域是解决细粒度图像分类的关键,也是目前的共识。目前人们都都主要关注如何最好定位区分性目标部分,非常典型的就是两个组件组成的模型:1)明确执行区域检测;2)确保学习的特征是最大化区分度的。原创 2022-11-15 15:18:02 · 892 阅读 · 0 评论 -
LS-CNN: Characterizing Local Patches at Multiple Scales for Face Recognition--Qiangchang Wang
本文要解决的问题:人脸识别因各种光照姿态等造成类间距大,但是很少有工作学习局部和多尺度的表征。为什么要考虑多尺度:因为一些有区分性的特征可能存在不同的尺度中如何解决:在单层利用不同卷积核提取特征(Inception-like),聚合不同层的特征(Dencse-like)。为什么要考虑局部patch:因为在全局或者显著特征丢失后,一些局部patch仍然可以帮助我们进行识别或分类。如何解决:换句话说不同区域有不同重要性,所以设计了一个空间注意力模块。原创 2022-10-28 21:19:28 · 1506 阅读 · 0 评论 -
Dual Attention Network for Scene Segmentation--2019.Jun Fu
DANet注意力的思想就是让每个通道(或像素)与所有其他通道(像素)都建立关系,实际上和Transformer很相似。Transformer也是将一个词使用三个矩阵分解为Q、K、V,由QK产生的权重乘以V,你会发现Position attention module也是通过三个卷积产生B、C、D,BC产生权重乘以D。总之按实验来看想过不错,不知道在分类等任务上怎么样。但是明显计算量等会大于ECA或SENet等注意力。原创 2022-10-11 21:40:07 · 833 阅读 · 0 评论 -
嵌入注意力机制的多尺度深度可分离表情识别--2021.宋玉琴
主要解决几个问题:1)深度网络带来的梯度爆炸或弥散问题;2)特征提取效果不好;3)数据存在冗余或噪声(多余和无用的数据)本文的解决办法:1)残差链接;2)Inception式结构进行多尺度特征提取;3)CBAM注意力模块提升有效特征的表达,削弱噪音影响。亮点在于:1)Inception中的多尺度卷积核使用多层深度可分离卷积卷积替换,保证感受野的同时降低参数量;2)将CBAM嵌入到Inception每个分支中去,提升每个尺度的特征权重。原创 2022-10-11 17:25:41 · 1492 阅读 · 0 评论 -
多尺度融合注意力机制的人脸表情识别网络--2022.罗思诗
本文为了解决CNN难以提取有效特征、网络模型参数复杂等问题,提出了一种多尺度融合注意力机制网络MIANet。首先引入Inception结构来图区多尺度特征信息,使用ECA注意力模块加强特征表征能力,使用深度可分离卷积减少网络参数。最终在FER2013和CK+上分别取得72.28%和95.76%的准确率。值得学习的是三种模块在CNN中的插入位置,其他的看看就行。原创 2022-10-11 12:50:19 · 4184 阅读 · 3 评论 -
Deep-Emotion: Facial Expression Recognition Using Attentional Convolutional Network--Shervin Minaee
本文作者尝试用比较小的CNN来进行表情识别,作者使用4个卷积层和spatial transformer作注意力分类,实现不超过10层的网络,并且在FER2013上取得了70%的精度,这对于本文这样一个很小的网络来说非常不错了。除此之外,作者还在CK+、JAFFE和ERG上面做了验证实验,结果都很不错。原创 2022-09-24 19:07:47 · 1731 阅读 · 3 评论 -
融合关键点属性与注意力表征的人脸表情识别--2021.高红霞
本文使用68点人脸关键点+Transformer进行表情分类。因为人脸关键点相比于以前直接使用人脸图像比,能够过滤掉很多不需要的多余特征,使用非表情区域的局部关键点作为特征表征(从感性来看,表情变化也对于着关键点的变化,比如开心表情,这几个关键点应该怎样,那几个关键点应该怎样,结合所有关键点的信息就能判别表情)。现在提取了关键点特征,然后使用Transformer来探索这些关键点之间的联系,最终进行分类。原创 2022-09-21 10:32:07 · 3348 阅读 · 3 评论 -
TransFER: Learning Relation-aware Facial Expression Representations with Transformers--2021.Fanglei
CNN在提取特征时,通过随机丢弃推动模型去学习更多不同地特征(类似不把鸡蛋放同一个篮子里),这样在脸部转动或不同类别间,能够找到更多更有区分度地特征,帮助更好分类。CNN提取的多种特征,需要更好的联系起来才能完成分类,本文借鉴Transformer的强大全局注意力能力,探索CNN提取的不同局部特征间的关系,从而实现更好的分类。注意:无论是CNN探索更多局部特征,还是Transformer中探索更多局部特征间的联系,都是使用了dropping思想,打破明显的、固有的特征和联系,从而推动学习更多特征和联系。原创 2022-09-19 16:07:51 · 2171 阅读 · 6 评论 -
MicroNet: Improving Image Recognition with Extremely Low FLOPs--Yunsheng Li
本文重点解决在极低FLOPs条件下设计准确率更高的网络,通过Micro-Factorized Convolution在保证节点连接性条件下减低计算量,通过Dynamic Shift-Max激活函数加强通道间的联系,改善非线性,以弥补网络不能太深所带来的缺陷。通过实验看出MicroNet比MobileNetV3等轻量化网络不经拥有更低的FLOPs,而且在精度上的提升非常巨大。原创 2022-09-15 12:52:42 · 1692 阅读 · 2 评论 -
ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices--Xiangyu Zhang
要解决的问题:深度可分离卷积等使用1x1卷积的方法能大大降低计算量,但是1x1卷积如下图左,也需要大量的计算,而且一般会大量使用到1x1卷积,所以如果能改善1x1卷积的计算量问题,就可以进一步提高轻量化。解决方式:对于1x1卷积使用分组卷积实现,如上图右所示,这样就能够大大降低计算量。但是这也有一个缺点,就是分组后只能在组内卷积交流,比如红绿黄三个分组,组间没有信息交流,这回降低网络表征能力。所以本文提出一个新的操作通道混洗(Channel Shuffle):将每个组再次分组并分别原创 2022-09-11 16:41:56 · 1579 阅读 · 0 评论 -
(DenseNet)Densely Connected Convolutional Networks--Gao Huang
通过全短接实现特征重用和特征数的累计(保证每层产生少量特征数,后面也会concat很多特征,因为叠加了),同时这种全短接可能也加快了损失函数的梯度回传,缓解梯度消失。在DenseBlock内部通过1x1卷积瓶颈降低计算量,在DenseBlock之间的转换层通过“压缩”参数控制输入到下一个DenseBlock的特征数,也能够控制计算量。所以总上通过特征重用在保证特征数量时,通过瓶颈和压缩降低计算量和参数量,通过实验在相同精度效果下,比其他模型参数量都更小。但是一个问题是,因为后面的特征要用到前面的特征,原创 2022-09-04 20:50:04 · 560 阅读 · 1 评论 -
MobileNetV2: Inverted Residuals and Linear Bottlenecks--M Sandler
本文描述了一种新的用于移动和嵌入式设备的架构MobileNetV2,该架构提高了多个任务和基准数据集上以及不同模型尺寸内的最佳性能。MobileNetV2基于倒置的残差结构,残差链接位于窄的瓶颈之间。中间层使用深度可分离卷积进行滤波(提取)特征。此外作者发现去除窄层的非线性对于保持表征能力非常重要然后在ImageNet分类、COCO对象检测、VOC图像分割上进行了性能测试。我们评估了精度和通过乘法加法(MAdd)度量的操作数量,以及实际延迟和参数数量之间的权衡。好!原创 2022-09-01 23:45:12 · 1337 阅读 · 0 评论 -
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications--Andrew
MobileNet使用深度可分离卷积搭建而成,通过在分类、目标检测、人脸识别等任务上实验MobileNet都具有很好的表现,可以作为各种图像任务的Backbone。并且作者设计两个参数控制MobileNet的宽度(通道数)和分辨率,从而可以根据任务改造MobileNet。原创 2022-09-01 17:47:00 · 1889 阅读 · 0 评论 -
(VGG)VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION--Karen Simonyan
本文增加了深度,设计了从11层到19层几种VGG模型,然后通过训练集和测试集多尺度变化进一步提高了性能。在ILSVRC2014大赛上通过多模型融合取得了次于GoogleNet的第二名成绩。总之最大的成就应当是证明了深度对于图像分类的精度是有帮助的...原创 2022-09-01 00:02:51 · 1169 阅读 · 0 评论 -
(InceptionV2/V3)Rethinking the Inception Architecture for Computer Vision--Christian Szegedy
本文在GoogleNet(Inception-V1)的基础上同时提出了Inception-v2(第6节)/v3(第9节),本文的主要内容是发现如果你什么都不懂就对之前Inception的结构进行改动,不仅可能会增大参数量,并且效果也会不稳定,所以作者提出了多种优化方法,并且按照这一套合理的规则来优化Inception结果是最可靠的。最终根据这些原则和方法,在GoogleNet之上优化出了Inception-V2,然后Inception-V2+一些trick就得到了Inception-V3,通过与其他模型.原创 2022-08-31 01:05:50 · 1125 阅读 · 0 评论 -
(ResNet)Deep Residual Learning for Image Recognition--Kaiming He
更深的DNN是非常难以训练的。我们提出了一个residual learning framework(残差学习框架)能够轻松训练一个比之前还要深得多的网络。我们提供一个经验性的证据(实验)证明residual networks是更容易优化的,能够获得更高的精度(更容易优化就可以训练更深的网络,也就能获得更高的精度)在ImageNet数据集上使用一个152层的残差网络(比VGG深8倍,但复杂度却更低)。.....................原创 2022-08-27 22:40:35 · 1040 阅读 · 0 评论 -
ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks
本文针对SENet通道注意力中降维产生的副作用进行了分析,为了克服副作用提出了ECA高效通道注意力,增加非常少的参数且获得了很好的表现。下图是SEnet中通道注意力,中间c/r就是通道降维了。下图是ECA:SEnet通道注意力中有降维操作,这会破坏通道间的直接交流,产生的通道权重不够好。但是如果不降维那这样的全连接会导致参数量暴涨。所以作者设计一个ECA,在不降维的情况下,控制参数量,实现高效高表现的通道注意力。应该不是吧,SENet中也提到为了平衡效果和参数量,中间进行了c/r的降维,所以SEnet应原创 2022-06-06 17:57:53 · 4148 阅读 · 7 评论 -
Facial Emotion Recognition: State of the Art Performance on FER2013
[1] Khaireddin Y , Chen Z . Facial Emotion Recognition: State of the Art Performance on FER2013[J]. 2021.本文在Fer2013数据集上实现了当时的SOTA精度,本文的并没有提出什么新的网络或者插件,使用了VGG19,只是在诸如优化器、学习率衰减等的常用选择上进行了一些列的比较,选出对于当前网络和数据增强上最优的组合,最终在测试集上得到了73.28%的精度。 0、摘要1、引入2、相关工作3、实验.原创 2022-06-02 16:45:27 · 1760 阅读 · 1 评论 -
Learning Spatial Fusion for Single-Shot Object Detection--Songtao Liu
[1] Liu S , Huang D , Wang Y . Learning Spatial Fusion for Single-Shot Object Detection[J]. 2019. 1、介绍2、ASFF的结构2.1、特征同尺寸变换2.2、自适应混合2.3、相容性质3、效果多尺度特征特别是特征金字塔FPN是解决目标检测中跨尺度目标的最常用有效的解决方法,但是不同特征尺度中存在的不一致性限制了(基于特征金字塔的)single-shot检测器的性能。本文提出一种特征金字塔融合方法ASF.原创 2022-05-06 15:52:22 · 2541 阅读 · 1 评论 -
Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer--T Li
[1] Lin T , Ma Z , Li F , et al. Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer[J]. 2021.1、摘要本文的拉普拉斯金字塔风格迁移网络LapStyle是一种新的前馈方法,通过拉普拉斯金字塔生成低分辨率的内容图和高分辨率的细节图,首先使用draft子网络迁移低分辨率的全局样式图案,然后通过revision自网络对局部.原创 2022-04-20 18:29:22 · 2925 阅读 · 0 评论 -
Real-time Convolutional Neural Networks for Emotion and Gender Classification--O Arriaga
[1] Arriaga O , Valdenegro-Toro M , P Plöger. Real-time Convolutional Neural Networks for Emotion and Gender Classification[J]. 2017.本文是2017年的一篇关于表情识别和性别分类的论文,作者设计了一个轻量级卷积神经网络,并在上面测试了表情识别任务和性别分类任务,都取得了不错的效果。这里我主要来总结表情识别的任务。本文的主要工作是基于Xception网络设计了一个轻量.原创 2022-04-16 09:54:08 · 2319 阅读 · 0 评论 -
基于卷积神经网络的点云配准方法--舒程珣
[1]舒程珣, 何云涛, 孙庆科. 基于卷积神经网络的点云配准方法[J]. 激光与光电子学进展, 2017, 54(3):9.本文主要就是通过两幅点云图,来估计配准参数(也即位姿变换参数),大概流程如下:拥有两幅点云—>计算点云的深度图,得到两幅深度图–>通过卷积神经网络估计配准参数(CNN中包括提取特征的卷积部分和回归配准参数的全连接部分。1、引言点云配准时通过空间变换使得两片点云再同一坐标系中对齐的过程。传统点云配准算法一般分为粗配准和精准配准。粗配准用于缩小点云之间的旋转和错.原创 2022-04-13 18:30:06 · 3501 阅读 · 3 评论 -
商汤科技:面向增强现实(AR)的视觉定位技术的创新突破与应用
[1]章国锋. 商汤科技:面向增强现实的视觉定位技术的创新突破与应用[J]. 杭州科技, 2019(6):4. 1、引入2、挑战3、SenseAR的关键技术3.1、稀疏点云地图构建3.2、精准定位4、一些应用4.1《王者荣耀》AR相机4.2、AR测量5、发展趋势1、引入“增强显示”(AR)是一种将虚拟虚拟警务或信息无缝融入现实环境的技术。定位于地图构建技术(SLAM)可以在未知环境中定位自身方位并构建环境地图,保证虚拟物体叠加在现实环境中的几何一致性。2、挑战目前AR在小尺度场景下已经完成比较.原创 2022-04-12 10:52:13 · 3070 阅读 · 4 评论 -
基于深度残差和特征金字塔网络的实时多人脸关键点定位算法--谢金衡
[1]谢金衡, 张炎生. 基于深度残差和特征金字塔网络的实时多人脸关键点定位算法[J]. 计算机应用, 2019, 39(12):6.深度学习中关键点定位的方法有检测人脸再定位和直接热力图定位,检测人脸再定位导致时间成本增加,本文则剔除将人脸关键点生成对应的热力图作为标签,使用残差结构提取特征,使用特征金字塔融合多尺度特征,由粗到精一次性回归图中所有人脸关键点。该算法前向传播约需0.0075s,再WFLW测试集中取得了6.06%的平均误差和11.70%的错误率。 0、引言1、本文方法1.1、数据集预.原创 2022-04-09 21:31:29 · 3170 阅读 · 0 评论 -
Depth Map Prediction from a Single Image using a Multi-Scale Deep Network--Eigen D
[1] Eigen D , Puhrsch C , Fergus R . Depth Map Prediction from a Single Image using a Multi-Scale Deep Network[J]. MIT Press, 2014.本文是首次利用CNN估计单目图像深度的论文,主要分为两部分:1)全局深度估计;2)局部特征深度精估计,在损失计算上提出了尺度不变误差。1、总体结构图其实就现在的眼光来看,这个网络结构挺简单的。作者首先将输入图输入Coarse网络,通过.原创 2022-03-09 16:28:11 · 1224 阅读 · 0 评论 -
基于深度学习的智能车辆视觉里程计技术发展综述*--陈涛
[1]陈涛, 范林坤, 李旭川,等. 基于深度学习的智能车辆视觉里程计技术发展综述[J]. 汽车技术, 2021(1):10.本文内容:介绍了基于模型的里程计研究现状对比了常用智能车数据集,将基于深度学习的视觉里程计分为有监督学习、无监督学习和模型法与深度学习结合3种,从网络结构、输入和输出特征、鲁棒性等方面进行分析讨论了基于深度学习的智能车辆视觉里程计研究热点从视觉里程计在动态场景的鲁棒性优化、多传感器融合、场景语义分割3 个方面对智能车辆视觉里程计技术的发展趋势进行了展望 1、前.原创 2022-03-08 16:51:28 · 4324 阅读 · 0 评论 -
DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks--Sen Wa
[1] Wang S , Clark R , Wen H , et al. DeepVO: Towards end-to-end visual odometry with deep Recurrent Convolutional Neural Networks[J]. IEEE, 2017.针对以往的使用深度学习解决视觉里程计中,只在帧间预测pose,没有充分利用连续帧的问题,本文使用CNN+RCNN(LSTM)实现了充分利用序列帧的信息,实现了很好的效果。 1、整体结构2、CNN部分3、RNN部分.原创 2022-03-06 14:59:56 · 1158 阅读 · 0 评论 -
Toward Geometric Deep SLAM--Daniel DeTone && Tomasz Malisiewicz
D Detone, Malisiewicz T , Rabinovich A . Toward Geometric Deep SLAM[J]. 2017.本文使用深度学习来估计帧间图像的单应性矩阵,主要分成两步:第一步通过一个卷积神经网络找到输入图像中的角点;第二步的输入是两个角点图(概率),即两幅帧间图像分别通过第一个卷积神经网络得到的点图(概率),输出为9个数字,即H3∗3H_{3*3}H3∗3单应性矩阵 1、总体结构2、MagicPoint2.1、MagicPoint结构2.2、MagicP.原创 2022-03-05 18:55:40 · 3953 阅读 · 2 评论 -
PFLD: A Practical Facial Landmark Detector--Xiaojie Guo
Guo X , Li S , Zhang J , et al. PFLD: A Practical Facial Landmark Detector[J]. 2019.该论文亮点如下:轻量级:以MobileNet blocks构建轻量级网络。设计新的损失函数:一个训练集可能包含大量的正面人脸,而缺乏大姿势人脸数据。这将降低处理大姿态情况下的准确性。为了解决这个问题,我们对与丰富的训练样本相对应的错误给予更多的惩罚。考虑到上述两个问题,即几何约束和数据不平衡,我们设计了一个新的损失。增加多.原创 2021-10-23 18:09:20 · 876 阅读 · 1 评论 -
基于卷积网络的轻量级人脸关键点检测--惠晓伟
惠晓伟. 基于卷积网络的轻量级人脸关键点检测[D]. 黑龙江:哈尔滨工业大学,2018.文章是一篇硕士论文,实现了一个以SqueezeNet为基础网络,基于多任务并行机制和网络预训练的77点人脸关键点检测网络,同时引入:区域注意力机制:本质时损失函数的权值自适应,有效缓解损失函数不平衡问题区域融合:吸收检测网络中global和local输出,并对结果进行继承,提高精度 1. 数据集2. 任务描述和算法设计2.1 改进的标准化均方误差2.2 人脸对齐2.2.1 传统人脸对齐2.2.2 传统人脸.原创 2021-09-28 23:22:41 · 1394 阅读 · 2 评论 -
葛道辉,李洪升,张亮,等. 轻量级神经网络架构综述
[1]葛道辉,李洪升,张亮,等. 轻量级神经网络架构综述[J]. 软件学报, 2020, 31(9): 2627-2653.主要介绍3中构建轻量级神经网络的方法:人工设计轻量级神经网络神经网络模型压缩算法基于网络架构搜索的自动化神经网络架构设计博客主要总结人工设计轻量级网络的方法 0. 总结1. 人工设计的轻量级神经网络模型1.1 使用小卷积核代替大卷积(VGGNet)1.2 限制中间特征的通道数量(SqueezeNet)1.3 分解卷积运算1.3.1 深度可分离卷积(MobileNet.原创 2021-09-12 21:17:52 · 1090 阅读 · 0 评论