自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

原创 loso训练策略

问:loso训练策略是保留一个受试者作为测试集,其他受试者作为训练集 那在一个epoch中,是只有一个受试者作为测试,还是说在这个一个epoch中 每个受试者都轮流作为测试呢?进行的,而不是在一个 epoch 内进行的。,每个受试者都会轮流作为测试集,最终会执行。(假设有 N 个受试者)。

2025-02-19 11:19:55 181

原创 论文阅读:MGMAE : Motion Guided Masking for Video Masked Autoencoding

MGMAE:MotionGuided Masking for Video Masked AutoencodingAbstract掩蔽自编码(Masked Autoencoding)在自监督视频表示学习中展现了出色的表现。时间冗余导致了VideoMAE中高掩蔽比率和定制的掩蔽策略。本文旨在通过引入运动引导掩蔽策略,进一步提升视频掩蔽自编码的性能。我们的关键见解是,运动是视频中的一种普遍且独特的先验信息,应在掩蔽预训练过程中加以考虑。我们提出的运动引导掩蔽明确地结合了运动信息,构建了时间一致的掩蔽体积。

2025-02-08 15:23:27 991 1

原创 自监督的主要学习方法

基于上下文的方法通过内部结构和局部信息的预测进行学习,适合文本和图像任务。基于时序的方法专注于时间序列数据,依赖于时间步长之间的顺序或依赖关系,常用于视频或时间序列预测。基于对比的方法通过拉近相似样本、推远不相似样本来学习有判别力的表示,广泛应用于多种类型的数据。每种方法都有其适合的场景和局限,随着自监督学习的发展,它们常常结合使用以提高学习效果。

2024-09-18 21:57:13 1215

原创 WTAL(三)---Compact Representation and Reliable Classification Learning for PL-WTAL

在未来的工作中,我们还将尝试探索一些有效机制,以从相同模态中的不同类别提取和利用互补信息,从而实现更精确的时序动作定位。在本文中,我们分析了阻碍弱监督时序动作定位(WSTAL)性能的两个重要问题,即低区分度的分类学习和动作内部特征的巨大差异,并提出了一个统一框架CRRC-Net,用于稳健的点级弱监督时序动作定位。)模块,该模块利用点级注释挖掘伪训练样本进行自监督特征学习,以确保特征空间中的两个相似(或不相似)样本在另一个特征空间中也具有相似(或不相似)的特征,从而增强特征表示的紧凑性并减少动作内部变异。

2024-09-09 20:27:47 1025

原创 CoLA: Weakly-Supervised Temporal Action Localization with Snippet Contrastive Learning

按照 [39, 30, 14] 的方法,我们采用了 top-k 均值策略:对于每个类别 c,我们选取 keasy 个具有最大类别特定 T-CAS 值的片段,并计算它们的均值作为视频 Vn的类别 c 的视频级别分类分数 an;给定一个输入视频,我们首先预测其片段级别的类别激活,以形成 T-CAS,并根据第 3.4.1 节中描述的 top-k 简单分数来聚合,从而获得视频级别的预测。然而,对于接近边界的片段,它们的可靠性较低,因为它们处于动作和背景之间的过渡区域,从而导致检测模糊。

2024-09-01 17:03:47 1084

原创 动作损失 ​ 的定义

在WSTAL中,模型仅能接收到视频级别的标签(即整个视频中包含哪些动作类别),但没有帧级别的标注。为了有效地训练模型,动作损失 La 被设计用来衡量模型在预测动作类别时的准确性。动作损失 La通常是基于类别交叉熵损失(Cross-Entropy Loss)的形式定义的,其计算公式为:C 是动作类别的总数。yc是视频的真实标签(ground truth),如果视频中包含动作 c,则 yc=1;否则 yc=0。pc​ 是模型预测的类别 c 出现在视频中的概率。

2024-09-01 15:40:41 1127

原创 Full-Stage Pseudo Label Quality Enhancement for Weakly-supervised Temporal Action Localization

这也是我们在之前的生成阶段引入跨视频对比学习的另一个原因:以增加动作和背景的差异性,从而帮助减少选择阶段中过滤掉的真正阳性提议的数量。在弱监督时间动作定位(WSTAL)中,我们仅能访问一组带有视频级标签的视频集,表示为 V={v(i),y(i)}i=1N,其中 N 是视频的总数,v(i) 和 y(i)分别代表未剪辑的视频和动作类别标签。先前的工作大多只关注提案生成(人工设计后处理阶段),忽略了在其他阶段生成更优秀提案的潜力,即使在伪标签生成阶段,生成的动作提案也因仅限于单个视频内部的信息而不够丰富。

2024-08-30 15:31:19 870

原创 多实例学习(MIL)

2024-08-27 12:24:24 141

原创 Focal Loss 的详细解释

Focal Loss 是一种强大的工具,可以有效应对类别不平衡的问题。通过对容易分类的样本降低损失贡献,它使模型更专注于难分类的样本,提升整体的模型性能。

2024-08-19 14:20:52 1577

原创 微表情检测(四)----SL-Swin

结果表明,我们的方法在MEGC 2022和MEGC 2021的定位任务上具有很强的性能,表明我们的方法在准确识别小型数据集中的表情方面具有潜力,并突显了我们的方法在大规模标记的表情数据集不容易获得的情况下的实用性。详细检查CAS(ME)3数据集的结果,我们的方法在召回率上更高,而精确率较低。与仅使用Swin Transformer背景的小型版本而没有SPT和LSA的方法相比,表中标记为Swin-T,我们的方法(SL-Swin-T)在所有指标上都表现更好,这表明SPT和LSA的应用提高了模型的泛化能力。

2023-12-12 22:30:40 2014 4

原创 微表情检测(三)----基于光流特征的微表情检测

基于光流特征的微表情检测Abstract本文提出了一种高精度和可解释性的自动微表情检测方法。首先,我们设计了基于鼻尖位置的图像对齐方法,以消除由头部晃动引起的全局位移。其次,根据面部编码系统(FACS)中的动作单元定义,我们选择了十四个感兴趣区域(ROI)来捕捉微妙的面部运动。引入了密集光流来估计ROI的局部运动和时域变化。第三,我们设计了一种峰值检测方法,用于在时域变化曲线上精确定位运动间隔。最后,我们提出了一个重叠指数来衡量不同器官变化的一致性。

2023-12-09 18:50:22 2737 3

原创 Question 1----dlib问题

复现代码时,在环境里边导入dlib包时一直出现setup.py运行失败,查找网上一些解决方法,使用whl文件本地导入 仍然不能解决,通过向。首先需要先安装两个库:(已经安装好了VS或者pycharm)问题成功解决,欢迎提供其他解决方案!

2023-12-08 15:32:29 643

原创 微表情检测(二)----SOFTNet(二)代码

【代码】微表情检测(二)----SOFTNet(二)代码。

2023-12-07 19:22:42 582

原创 微表情检测(二)----SOFTNet论文总结

面部表情从明显的到微妙的都有所变化。近年来,对微表情进行分析,即由于抑制真实情感而产生的自然表达,引起了研究人员的广泛关注,具有广泛的潜在应用。然而,在与正常或宏表情交织在一起的情况下,识别视频中的微表情变得越来越具有挑战性。在本文中,我们提出了一种浅层光流三流卷积神经网络(SOFTNet)模型,用于预测一个捕捉帧可能处于表情间隔的概率的分数。通过将定位任务构建为回归问题,我们引入了伪标签以促进学习过程。

2023-12-07 15:09:34 2151

原创 微表情检测(一)----LGAttNet论文总结

微表情识别之前需要先进行微表情的检测。我们提出了一种基于双重注意力网络的微表情检测架构,称为LGAttNet。LGAttNet是第一个利用与二维卷积神经网络组合的双重注意力网络执行逐帧自动微表情检测的方法之一。该方法将特征提取和增强任务分为两个不同的卷积神经网络模块:稀疏模块和特征增强模块。另一个关键模块是注意力网络,它提取局部和全局的面部特征,即局部注意力模块和全局注意力模块。该注意机制采用了人类专注于微动作特定区域的特征,

2023-12-05 14:03:51 1940

原创 深度学习之图像分类(十五)DINAT: Dilated Neighborhood Attention Transformer理论精简摘要(二)

局部注意力机制:例如滑动窗口Neighborhood Attention(NA)或Swin Transformer的Shifted Window Self Attention。优点:尽管在降低自注意力二次复杂性方面表现出色,缺点:但是局部注意力削弱了自注意力的两个最理想的属性:长程相互依赖建模和全局感受野。在本文中,我们引入了(DiNA),这是对NA的一种自然、灵活且高效的扩展,可以在不增加额外成本的情况下捕获更多的全局上下文并指数级地扩展感受野。

2023-11-28 14:50:50 1959

原创 深度学习之图像分类(十五)DINAT: Dilated Neighborhood Attention Transformer详解(一)

Transformers 迅速成为跨模态、领域和任务中应用最广泛的深度学习架构之一。在视觉领域,除了对普通Transformer的持续努力外,分层Transformer也因其性能和易于集成到现有框架中而受到重视。这些模型通常采用局部注意力机制,例如滑动窗口Neighborhood Attention(NA)或Swin Transformer的Shifted Window Self Attention。

2023-11-27 22:40:39 2561

原创 深度学习之图像分类(十四)CAT: Cross Attention in Vision Transformer详解

由于Transformer在自然语言处理(NLP)中得到了广泛应用,人们已经意识到Transformer在计算机视觉(CV)中的潜力,并且已经激发了许多新的方法。然而,在图像进行标记后,用图像块替换单词标记所需的计算量(例如,ViT)非常庞大,这成为模型训练和推理的瓶颈。在本文中,我们提出了一种新的Transformer中的注意机制,称为交叉注意力(Cross Attention),该机制在图像块内部而不是整个图像中进行交替注意以捕捉局部信息并在从单通道特征图中分割的图像块之间应用注意力以捕捉全局信息。

2023-11-25 14:54:34 4648

原创 深度学习之图像分类(十三)Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解(三)

这里的高和宽的乘积是patch的个数,56x56个4x4的patch,下采样2x之后维度增加四倍,liner projection只是维度增加2倍,变为28x28x2C,这里的patch数目由56x56变为28x28,patch数目减小,但是patch的尺寸增加由4x4变为8x8,这里的维度C和patch_size的大小是没有关系的,这样之后输出的窗口尺度发生了变化。接下来忽略除以以及softmax的计算量,假设得到Λhw×hw,最后还要乘以V,对应的计算量为 (hw)^2C。

2023-11-25 14:37:31 1063

原创 深度学习之图像分类(十三)Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解(二)

文章提出一个新的结构叫swin transformer,可以作为计算机视觉的通用骨干。将transformer从语言实体应用到视觉实体中存在挑战:1、视觉实体的尺度变化较大,需要能够融合多尺度信息,但是ViT的stage尺度是固定的,2、图像中的像素是高分辨率的,形成的token往往具有很大的维度,通常计算代价和输入图像的分辨率成平方比,带来巨大的计算代价;

2023-11-24 23:57:33 1311

原创 深度学习之图像分类(十三)Swin Transformer: Hierarchical Vision Transformer using Shifted Windows详解(一)

在这次移位后,一个批处理窗口可能由几个在特征图中不相邻的子窗口组成,因此采用了屏蔽机制,将自注意力计算限制在每个子窗口内。为了在保持非重叠窗口的高效计算的同时引入跨窗口连接,我们提出了一种移动窗口分区方法,该方法在连续的。基于偏移窗口的自注意力在视觉问题上表现出了有效和高效的特性,我们期待进一步研究它在自然语言处理中的应用。移位窗口方案通过将自注意力计算限制在非重叠的局部窗口内,同时允许窗口之间的交叉连接,从而提高了效率。通用骨干(不仅仅在分类识别的任务上有好的结果,在目标检测和语义分割都有好的结果)

2023-11-24 23:12:29 1402

原创 机器学习之自监督学习(五)MAE翻译与总结(二)

,因为有标签的数据集需要大量的人工去进行标注,需要非常高的人工成本,但是无标签的数据在网络上到处可见,通过爬取的方式也便于收集。在编码过程中,编码器会强制模型通过学习来去除输入数据中的噪声,使得编码的特征表示尽可能干净和有用。第一个阶段不涉及任何的下游任务,就是拿着一堆无标签的数据去训练我们的网络,没有设定特定的任务。而想象出它的样子来。)是一种神经网络模型,旨在从包含噪声的输入数据中学习干净的、有用的特征表示。,去噪自动编码器是一类自动编码器,它破坏输入信号,并学会重构原始的、未被破坏的信号。

2023-11-23 15:23:01 293

原创 机器学习之自监督学习(五)MAE翻译与总结(一)

一个合理深的解码器可以弥补重建专业化在识别方面的不足,将潜在表示留在更抽象的层次上。线性分类层,然后在特定数据集上进行微调,端到端就是在特定数据集上可以通过训练修改模型参数,线性探测是仅仅在特定数据集上训练最后的线性分类层。这个编码器的输入中有很大一部分是掩模标记,而在未被损坏的图像中不存在这些掩模标记。我们的方法包括一个编码器,将观察到的信号映射到潜在表示,以及一个解码器,从潜在表示和掩模标记中重建原始信号。图像只是记录的光线,没有将其分解成视觉上的单词的语义。对于线性探测来说,足够深的解码器非常重要(

2023-11-23 15:00:11 866

原创 机器学习之自监督学习(四)MoCo系列翻译与总结(二)

它的主要目标是通过去除输入数据中的噪声,学习到输入数据的有用表示,从而提高模型对干净数据的鲁棒性。是一种自动编码器的变体,其目标是通过利用上下文信息,即与输入数据相关的周围环境或上下文,来学习更具意义和上下文感知的表示。是一种自动编码器的变体,其目标是通过考虑输入数据在通道(channel)维度上的关系,学习更具有跨通道相关性的表示。- **考虑通道关系:** 在学习表示时,关注输入数据在通道维度上的相关性,以更好地捕捉跨通道信息。文本处理: 上下文自动编码器可用于学习词语或句子的上下文感知表示。

2023-11-23 14:48:40 398

原创 机器学习之自监督学习(四)MoCo系列翻译与总结(一)

由于字典的键来自前几个小批量,我们提出了一个缓慢前进的键编码器,实现为查询编码器的基于动量的移动平均,以维持一致性(动态一致性)。移除最先进入的小批次可能是有益的,因为它的编码键是最过时的,因此与最新的编码键一致性最差。,表明:有监督训练的特征分布和无监督训练的特征分布是存在很大的差距的。(最近的关于对比学习的研究主要表现在动态字典的构建方面。的固定字典大小的限制都成为这两个模型在大的数据上扩展的阻碍。预训练任务和损失函数(代理任务的选择以及损失函数的构建)有趣的是,迁移的准确性取决于检测器的结构。

2023-11-23 14:14:29 863

原创 机器学习之自监督学习(三)BeiT-视觉BERT预训练模型翻译与总结

待补充。

2023-11-23 14:13:28 136

原创 机器学习之自监督学习(二)SimCLR翻译与总结

待补充。

2023-11-23 14:12:16 91

原创 机器学习之自监督(一)大规模预训练BERT翻译与总结

待补充。

2023-11-23 14:08:07 84

原创 机器学习---模型选择---偏差和方差

标.在实际训练一个模型 𝑓(𝒙) 时,训练集 𝒟 是从真实分布 𝑝𝑟(𝒙, 𝑦) 上独立同分采样出来的有限样本集合.不同的训练集会得到不同的模型.令 𝑓𝒟(𝒙) 表示在训练集𝒟 上学习到的模型,一个机器学习算法(包括模型以及优化算法)的能力可以用不同训练集上的模型的平均性能来评价.。则 ℛ(𝑓)= 𝔼𝒙∼𝑝𝑟(𝒙)[(𝑓(𝒙) − 𝑓∗(𝒙))2]+ 𝔼(𝒙,𝑦)∼𝑝𝑟(𝒙,𝑦)[(𝑦 − 𝑓∗(𝒙))2]:模型方差衡量的是模型在不同的训练数据集上预测的变化程度。

2023-11-14 11:41:41 269 1

原创 机器学习公式推导系列(二)线性分类

2023-10-31 17:39:06 77 1

原创 深度学习之图像分类(十二)Masked Autoencoders Are Scalable Vision Learners(MAE)详解

本文表明,掩蔽自动编码器(MAE)是一种可扩展的计算机视觉自监督学习器。我们的MAE方法很简单:我们屏蔽输入图像的随机patch,并重建缺失的像素。它基于两个核心设计。首先,我们开发了一种非对称编码器——解码器架构,编码器仅对patch的可见子集(没有掩模标记)进行操作,轻量级解码器从潜在表示和掩模标记重建原始图像。第二,我们发现掩蔽高比例的输入图像,例如75%,产生了重要且有意义的自我监督任务。耦合这两种设计使我们能够高效和有效地训练大型模型:我们加速了训练(3倍或更多)并提高了准确性。

2023-10-31 17:20:18 4810 1

原创 机器学习---维度灾难

随着维度的增加,数据点之间的距离变得越来越大,导致训练集中的样本变得稀疏。这样一来,模型很容易出现过拟合的问题,因为它很难从有限的样本中准确地捕捉到数据的分布模式。维度灾难还会导致模型的泛化性能下降。由于高维空间中的数据分布复杂且稀疏,模型很难从训练集中学习到真正有用且泛化到新数据的特征。维度灾难是指在高维空间中,数据样本数量相对较少时,数据点之间的距离变得非常稀疏,导致数据分布的不均匀性增加,进而给模型的训练和泛化带来挑战。数据增强:通过合理的数据扩增技术,增加训练集中的样本数量,提高数据的多样性。

2023-10-26 23:01:48 522

原创 机器学习公式推导系列(一)线性回归

2023-10-25 20:12:33 142 1

原创 深度学习之生成对抗网络GAN(一)Generative Adversarial Nets/生成对抗网络(二)

1. 生成器(Generator) :生成器的任务是将随机噪声或隐变量映射为与真实数据相似的数据样本。它通常包括多层神经网络,例如多层全连接层或卷积神经网络(CNN)。生成器的输出是生成的数据。2. 判别器(Discriminator) :判别器的任务是区分真实数据与生成器生成的数据。它也是一个神经网络,通常包括多层全连接层或卷积神经网络。判别器的输出是数据样本为真实数据的概率。

2023-10-20 21:46:50 638 1

原创 深度学习之生成对抗网络GAN(一)Generative Adversarial Nets/生成对抗网络(一)

我们提出了一个通过对抗过程估计生成模型的新框架,其中我们同时训练两个模型:捕获数据分布的生成模型G,以及估计样本来自训练数据而不是G的概率的判别模型D.G的训练过程是最大化D出错的概率。这个框架对应于一个minimax双人游戏。在任意函数G和D的空间中,存在唯一解,G无限逼近训练数据分布(G能够完全拟合出原始数据分布,D无法完全判别出是原始数据还是生成数据),D处处等于1/2。在G和D由多层感知器定义的情况下,可以用反向传播和梯度下降来训练整个系统。

2023-10-20 21:34:31 555 1

原创 谷歌轻量化网络Mnasnet(神经架构搜索)

为移动设备设计卷积神经网络 (CNN) 具有挑战性,因为移动模型需要很小且快速并且保持准确性。尽管人们致力于设计和改进所有维度上的移动 CNN,但当需要考虑的架构可能性如此之多时,手动平衡这种权衡是非常困难的。在本文中,我们提出了一种自动移动神经架构搜索 (MNAS) 方法,该方法明确地将模型延迟合并到主要目标中,以便搜索可以识别在准确性和延迟之间取得良好权衡的模型。

2023-10-16 17:01:03 745 1

原创 深度学习之图像分类(十一)MobileNetV2详解

在本文中,我们描述了一种新的移动架构MobileNetV2,它提高了移动模型在多个任务和基准测试以及不同模型大小范围内的最新性能。我们还描述了在一个我们称之为SSDLite的新框架中将这些移动模型应用于对象检测的有效方法。此外,我们演示了如何通过DeepLabv3的简化形式构建移动语义分割模型,我们称之为Mobile DeepLabv3。基于逆残差结构,其中残差链接位于薄瓶颈层之间。中间扩展层使用轻量级深度卷积来过滤作为非线性来源的特征。此外,我们发现,为了保持代表性,消除窄层中的非线性是很重要的。

2023-10-13 20:44:28 3748

原创 深度学习之图像分类(十)MobileNets翻译与总结

我们提出了一类用于移动和嵌入式视觉应用的高效模型,称为MobileNets。MobileNets基于一种简化的架构,该架构使用深度可分离卷积来构建轻量级深度神经网络。我们引入了两个简单的全局超参数,它们在延迟和准确性之间进行了有效的权衡。这些超参数允许模型构建者根据问题的约束为他们的应用选择合适大小的模型。我们在资源和准确性权衡方面进行了广泛的实验,并在ImageNet分类上显示了与其他流行模型相比的强大性能。

2023-10-12 12:01:42 347 1

原创 机器学习---正则化方法

模型取值范围大同样可以训练出一个泛化能力强的模型,但是出现过拟合的几率也大大提升了(可以选择的范围大,自然就选了一整套相互配合起来可以让损失最小的参数,但是这些参数有可能只是在迎合训练集)。Dropout是降低参数量,这样神经元的输入会随机的被失活,下一层神经元不会完全的依赖某一个神经元的输入,这样每个神经元的权重都会降低,这样模型的复杂度也会随之降低,这样Dropout也起到了L2正则化的作用。在损失函数之中,在尾项之中加入L2正则项,为梯度下降加入减小权重的目标,就可以在减小损失的同时减小权重。

2023-10-11 20:52:55 330

原创 深度学习之图像分类(九)vision Transformer翻译与总结(二)

在大型语料库上进行训练,然后在小的数据集上应用,取得了非常不错的结果。由于的计算效率和可扩展性,随着模型和数据的增长,并未出现饱和现象。受在NLP领域的启发,一部分尝试将类似CNN的架构与Attention相结合(利用卷积神经网络子在softmax层之前所提取到的特征矩阵作为输入,将和CNN结合起来),另一些是用完全的取代CNN的功能。第二种在理论上是非常有效的,但是由于使用了专门的注意力机制,尚未在现代硬件加速器上有效地扩展,所以模型还不是很大。

2023-10-09 18:07:07 320 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除