
研究生学习-AI
文章平均质量分 88
一只波加猹~
i do
展开
-
多实例学习(MIL)
原创 2024-08-27 12:24:24 · 150 阅读 · 0 评论 -
Focal Loss 的详细解释
Focal Loss 是一种强大的工具,可以有效应对类别不平衡的问题。通过对容易分类的样本降低损失贡献,它使模型更专注于难分类的样本,提升整体的模型性能。原创 2024-08-19 14:20:52 · 1695 阅读 · 0 评论 -
微表情检测(三)----基于光流特征的微表情检测
基于光流特征的微表情检测Abstract本文提出了一种高精度和可解释性的自动微表情检测方法。首先,我们设计了基于鼻尖位置的图像对齐方法,以消除由头部晃动引起的全局位移。其次,根据面部编码系统(FACS)中的动作单元定义,我们选择了十四个感兴趣区域(ROI)来捕捉微妙的面部运动。引入了密集光流来估计ROI的局部运动和时域变化。第三,我们设计了一种峰值检测方法,用于在时域变化曲线上精确定位运动间隔。最后,我们提出了一个重叠指数来衡量不同器官变化的一致性。原创 2023-12-09 18:50:22 · 10628 阅读 · 2 评论 -
微表情检测(二)----SOFTNet论文总结
面部表情从明显的到微妙的都有所变化。近年来,对微表情进行分析,即由于抑制真实情感而产生的自然表达,引起了研究人员的广泛关注,具有广泛的潜在应用。然而,在与正常或宏表情交织在一起的情况下,识别视频中的微表情变得越来越具有挑战性。在本文中,我们提出了一种浅层光流三流卷积神经网络(SOFTNet)模型,用于预测一个捕捉帧可能处于表情间隔的概率的分数。通过将定位任务构建为回归问题,我们引入了伪标签以促进学习过程。原创 2023-12-07 15:09:34 · 2264 阅读 · 0 评论 -
微表情检测(一)----LGAttNet论文总结
微表情识别之前需要先进行微表情的检测。我们提出了一种基于双重注意力网络的微表情检测架构,称为LGAttNet。LGAttNet是第一个利用与二维卷积神经网络组合的双重注意力网络执行逐帧自动微表情检测的方法之一。该方法将特征提取和增强任务分为两个不同的卷积神经网络模块:稀疏模块和特征增强模块。另一个关键模块是注意力网络,它提取局部和全局的面部特征,即局部注意力模块和全局注意力模块。该注意机制采用了人类专注于微动作特定区域的特征,原创 2023-12-05 14:03:51 · 2058 阅读 · 0 评论 -
深度学习之图像分类(十五)DINAT: Dilated Neighborhood Attention Transformer理论精简摘要(二)
局部注意力机制:例如滑动窗口Neighborhood Attention(NA)或Swin Transformer的Shifted Window Self Attention。优点:尽管在降低自注意力二次复杂性方面表现出色,缺点:但是局部注意力削弱了自注意力的两个最理想的属性:长程相互依赖建模和全局感受野。在本文中,我们引入了(DiNA),这是对NA的一种自然、灵活且高效的扩展,可以在不增加额外成本的情况下捕获更多的全局上下文并指数级地扩展感受野。原创 2023-11-28 14:50:50 · 1995 阅读 · 0 评论 -
深度学习之图像分类(十五)DINAT: Dilated Neighborhood Attention Transformer详解(一)
Transformers 迅速成为跨模态、领域和任务中应用最广泛的深度学习架构之一。在视觉领域,除了对普通Transformer的持续努力外,分层Transformer也因其性能和易于集成到现有框架中而受到重视。这些模型通常采用局部注意力机制,例如滑动窗口Neighborhood Attention(NA)或Swin Transformer的Shifted Window Self Attention。原创 2023-11-27 22:40:39 · 2668 阅读 · 0 评论 -
深度学习之图像分类(十四)CAT: Cross Attention in Vision Transformer详解
由于Transformer在自然语言处理(NLP)中得到了广泛应用,人们已经意识到Transformer在计算机视觉(CV)中的潜力,并且已经激发了许多新的方法。然而,在图像进行标记后,用图像块替换单词标记所需的计算量(例如,ViT)非常庞大,这成为模型训练和推理的瓶颈。在本文中,我们提出了一种新的Transformer中的注意机制,称为交叉注意力(Cross Attention),该机制在图像块内部而不是整个图像中进行交替注意以捕捉局部信息并在从单通道特征图中分割的图像块之间应用注意力以捕捉全局信息。原创 2023-11-25 14:54:34 · 4830 阅读 · 0 评论 -
深度学习之图像分类(十三)Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解(三)
这里的高和宽的乘积是patch的个数,56x56个4x4的patch,下采样2x之后维度增加四倍,liner projection只是维度增加2倍,变为28x28x2C,这里的patch数目由56x56变为28x28,patch数目减小,但是patch的尺寸增加由4x4变为8x8,这里的维度C和patch_size的大小是没有关系的,这样之后输出的窗口尺度发生了变化。接下来忽略除以以及softmax的计算量,假设得到Λhw×hw,最后还要乘以V,对应的计算量为 (hw)^2C。原创 2023-11-25 14:37:31 · 1082 阅读 · 0 评论 -
深度学习之图像分类(十三)Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解(二)
文章提出一个新的结构叫swin transformer,可以作为计算机视觉的通用骨干。将transformer从语言实体应用到视觉实体中存在挑战:1、视觉实体的尺度变化较大,需要能够融合多尺度信息,但是ViT的stage尺度是固定的,2、图像中的像素是高分辨率的,形成的token往往具有很大的维度,通常计算代价和输入图像的分辨率成平方比,带来巨大的计算代价;原创 2023-11-24 23:57:33 · 1365 阅读 · 0 评论 -
深度学习之图像分类(十三)Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解(一)
在这次移位后,一个批处理窗口可能由几个在特征图中不相邻的子窗口组成,因此采用了屏蔽机制,将自注意力计算限制在每个子窗口内。为了在保持非重叠窗口的高效计算的同时引入跨窗口连接,我们提出了一种移动窗口分区方法,该方法在连续的。基于偏移窗口的自注意力在视觉问题上表现出了有效和高效的特性,我们期待进一步研究它在自然语言处理中的应用。移位窗口方案通过将自注意力计算限制在非重叠的局部窗口内,同时允许窗口之间的交叉连接,从而提高了效率。通用骨干(不仅仅在分类识别的任务上有好的结果,在目标检测和语义分割都有好的结果)原创 2023-11-24 23:12:29 · 1444 阅读 · 0 评论 -
深度学习之图像分类(十二)Masked Autoencoders Are Scalable Vision Learners(MAE)详解
本文表明,掩蔽自动编码器(MAE)是一种可扩展的计算机视觉自监督学习器。我们的MAE方法很简单:我们屏蔽输入图像的随机patch,并重建缺失的像素。它基于两个核心设计。首先,我们开发了一种非对称编码器——解码器架构,编码器仅对patch的可见子集(没有掩模标记)进行操作,轻量级解码器从潜在表示和掩模标记重建原始图像。第二,我们发现掩蔽高比例的输入图像,例如75%,产生了重要且有意义的自我监督任务。耦合这两种设计使我们能够高效和有效地训练大型模型:我们加速了训练(3倍或更多)并提高了准确性。原创 2023-10-31 17:20:18 · 5215 阅读 · 1 评论 -
谷歌轻量化网络Mnasnet(神经架构搜索)
为移动设备设计卷积神经网络 (CNN) 具有挑战性,因为移动模型需要很小且快速并且保持准确性。尽管人们致力于设计和改进所有维度上的移动 CNN,但当需要考虑的架构可能性如此之多时,手动平衡这种权衡是非常困难的。在本文中,我们提出了一种自动移动神经架构搜索 (MNAS) 方法,该方法明确地将模型延迟合并到主要目标中,以便搜索可以识别在准确性和延迟之间取得良好权衡的模型。原创 2023-10-16 17:01:03 · 807 阅读 · 1 评论 -
深度学习之图像分类(十一)MobileNetV2详解
在本文中,我们描述了一种新的移动架构MobileNetV2,它提高了移动模型在多个任务和基准测试以及不同模型大小范围内的最新性能。我们还描述了在一个我们称之为SSDLite的新框架中将这些移动模型应用于对象检测的有效方法。此外,我们演示了如何通过DeepLabv3的简化形式构建移动语义分割模型,我们称之为Mobile DeepLabv3。基于逆残差结构,其中残差链接位于薄瓶颈层之间。中间扩展层使用轻量级深度卷积来过滤作为非线性来源的特征。此外,我们发现,为了保持代表性,消除窄层中的非线性是很重要的。原创 2023-10-13 20:44:28 · 4198 阅读 · 0 评论 -
深度学习之图像分类(十)MobileNets翻译与总结
我们提出了一类用于移动和嵌入式视觉应用的高效模型,称为MobileNets。MobileNets基于一种简化的架构,该架构使用深度可分离卷积来构建轻量级深度神经网络。我们引入了两个简单的全局超参数,它们在延迟和准确性之间进行了有效的权衡。这些超参数允许模型构建者根据问题的约束为他们的应用选择合适大小的模型。我们在资源和准确性权衡方面进行了广泛的实验,并在ImageNet分类上显示了与其他流行模型相比的强大性能。原创 2023-10-12 12:01:42 · 370 阅读 · 1 评论 -
机器学习---正则化方法
模型取值范围大同样可以训练出一个泛化能力强的模型,但是出现过拟合的几率也大大提升了(可以选择的范围大,自然就选了一整套相互配合起来可以让损失最小的参数,但是这些参数有可能只是在迎合训练集)。Dropout是降低参数量,这样神经元的输入会随机的被失活,下一层神经元不会完全的依赖某一个神经元的输入,这样每个神经元的权重都会降低,这样模型的复杂度也会随之降低,这样Dropout也起到了L2正则化的作用。在损失函数之中,在尾项之中加入L2正则项,为梯度下降加入减小权重的目标,就可以在减小损失的同时减小权重。原创 2023-10-11 20:52:55 · 346 阅读 · 0 评论 -
深度学习之图像分类(九)vision Transformer翻译与总结(二)
在大型语料库上进行训练,然后在小的数据集上应用,取得了非常不错的结果。由于的计算效率和可扩展性,随着模型和数据的增长,并未出现饱和现象。受在NLP领域的启发,一部分尝试将类似CNN的架构与Attention相结合(利用卷积神经网络子在softmax层之前所提取到的特征矩阵作为输入,将和CNN结合起来),另一些是用完全的取代CNN的功能。第二种在理论上是非常有效的,但是由于使用了专门的注意力机制,尚未在现代硬件加速器上有效地扩展,所以模型还不是很大。原创 2023-10-09 18:07:07 · 357 阅读 · 1 评论 -
深度学习之图像分类(八)InceptionV4论文翻译总结
(用1x1进行升维,用来匹配残差链接所需要的feature map 的大小,1x1卷积不用使用激活函数)每个Inception块之后是滤波器扩展层(1 × 1卷积,不激活),用于在添加之前缩放滤波器组的维度,以匹配输入的深度。诚然,这些模型是以某种特别的方式挑选的,主要限制是模型的参数和计算复杂性应该与非残差模型的成本有些相似。He等人在[5]中也观察到类似的不稳定性,在非常深的残差网络的情况下,他们建议进行两阶段的训练,其中第一个“热身”阶段以非常低的学习率完成,然后是第二阶段,学习率很高。原创 2023-10-07 20:38:16 · 517 阅读 · 2 评论 -
深度学习之图像分类(七)InceptionV2 V3论文翻译总结
卷积网络是大多数最先进的计算机视觉解决方案的核心,适用于各种任务。自2014年以来,非常深的卷积网络开始成为主流,在各种基准测试中取得了实质性进展。尽管增加的模型大小和计算成本往往会转化为大多数任务的直接质量收益(只要为训练提供足够的标记数据),但计算效率和低参数计数仍是各种应用场景的限制因素,例如移动视觉和大数据场景。在这里,我们正在探索扩大网络规模的方法,旨在通过适当的因式分解卷积和积极的正则化尽可能有效地利用增加的计算。原创 2023-10-07 20:19:11 · 245 阅读 · 0 评论 -
深度学习之图像分类(六)ResNeXT论文总结
主要内容:本文工作: 我们提出了一种用于图像分类的简单、高度模块化的网络架构。该网络通过反复堆叠Building Block实现,Building Block则通过聚集简洁的卷积模块来实现。本文方法: 本文提出一个与网络宽度和深度类似作用的参数,用来衡量网络大小,称之为Cardinality基数(转换集的大小)。本文优点: 该网络具有相同的、多分支的结构,并且对应的超参数非常少。本文结论:(1)ImageNet-1K数据集上,不增加模型复杂度,增加Cardinality可以提升网络性能。原创 2023-10-07 19:57:05 · 289 阅读 · 0 评论 -
深度学习之图像分类(五)GoogleNet论文总结(二)
(1)浅层感受野小,深层感受野大,所以前面的层用1*1,后面的层增加3*3和5*5卷积核的比例。局部信息由1*1卷积提取,越靠前面的层越提取局部信息,大范围空间信息由大卷积核提取,越靠后面的层越提取大范围空间信息。(3)用1*1的卷积核进行降维和升维(减少参数量和运算量,增加模型非线性表达能力,既增加深度也增加宽度),用Global Average Pooling层取代全连接层。(4)赫布学习法则:例如识别一只猫,猫有猫耳朵,猫眼,那么当识别一只猫时,这些识别的神经元会同时被激活。原创 2023-10-07 19:34:11 · 106 阅读 · 0 评论 -
深度学习之图像分类(五)GoogleNet论文总结(一)
一个令人鼓舞的消息是,大部分进展不仅是更强大的硬件、更大的数据集和更大的模型的结果,而是主要是新想法、算法和改进的网络架构的结果。这是一个主要的瓶颈,因为强标记的数据集是费力和昂贵的获得,通常需要专家人工评分人员来区分各种细粒度的视觉类别,如ImageNet中的那些(即使是在1000类的ILSVRC子集中),如图1所示。Inception架构开始作为评估复杂网络拓扑结构构造算法的假设输出的案例研究,该算法试图近似由[2]为视觉网络隐含的稀疏结构,并通过密集的、随时可用的组件覆盖假设的结果。原创 2023-10-07 19:20:40 · 185 阅读 · 0 评论 -
深度学习之图像分类(四)ResNet论文总结
Rensnet解决了退化问题,获得了更高的准确率,实现了更快的收敛速度更深层次的神经网络更加难以训练。我们提出一个深度残差结构网络架构能够训练深层次的网络,根据层的输入,将层表述为学习的残差函数,而不是学习未引用的函数,我们可以提供大量的证据表明网络更容易优化,并且可以在深层次的网络中获得获得更好的精度。在Imagenet网络上,深度残差网络结构的深度是VGG的8倍,但是任然拥有最低的复杂度。原创 2023-10-07 17:48:52 · 468 阅读 · 0 评论 -
深度学习之图像分类(三)AlexNet论文总结
它的结构和训练方法成为了后来神经网络架构的基础,如VGG、GoogLeNet、ResNet等,进一步推动了深度学习的研究和应用,尤其是在图像处理领域。维度隐藏层上所引起的特征激活,如果两幅图像产生的特征向量具有较小的欧几里得分离,我们可以说更高级别的神经网络认为它们是相似的,这种是一种图像检索的好方法。这是相对于以往的神经网络模型来说更深的结构,有助于提取更复杂的图像特征。论文中使用了大规模的图像数据集ImageNet,同时采用数据增强技术,如翻转、剪裁和变换等,来增加训练数据的多样性,提高了模型的性能。原创 2023-10-07 17:01:43 · 318 阅读 · 0 评论 -
深度学习之图像分类(二)优化器
深度学习模型通过引入损失函数,用来计算目标预测的错误程度。根据损失函数计算得到的误差结果,需要对模型参数(即权重和偏差)进行很小的更改,以期减少预测错误。但问题是如何知道何时应更改参数,如果要更改参数,应更改多少?这就是引入优化器的时候了。简单来说,优化器可以优化损失函数,优化器的工作是以使损失函数最小化的方式更改可训练参数,损失函数指导优化器朝正确的方向移动。优化器即优化算法是用来求取模型的最优解的,通过比较神经网络自己预测的输出与真实标签的差距,也就是Loss函数。原创 2023-10-07 16:38:44 · 628 阅读 · 0 评论 -
深度学习之图像分类(一)softmax和sigmoid激活函数的区别
softmax是为了判定该类别是什么(激活函数softmax可使用的情况下,sigmoid也可用)N分类互斥,且只能选择其一,选择softmaxN分类互斥,可选多个类别,选择sigmoid。原创 2023-10-07 15:58:49 · 359 阅读 · 0 评论