
自监督学习
文章平均质量分 62
一只波加猹~
i do
展开
-
论文阅读:MGMAE : Motion Guided Masking for Video Masked Autoencoding
MGMAE:MotionGuided Masking for Video Masked AutoencodingAbstract掩蔽自编码(Masked Autoencoding)在自监督视频表示学习中展现了出色的表现。时间冗余导致了VideoMAE中高掩蔽比率和定制的掩蔽策略。本文旨在通过引入运动引导掩蔽策略,进一步提升视频掩蔽自编码的性能。我们的关键见解是,运动是视频中的一种普遍且独特的先验信息,应在掩蔽预训练过程中加以考虑。我们提出的运动引导掩蔽明确地结合了运动信息,构建了时间一致的掩蔽体积。原创 2025-02-08 15:23:27 · 1021 阅读 · 0 评论 -
自监督的主要学习方法
基于上下文的方法通过内部结构和局部信息的预测进行学习,适合文本和图像任务。基于时序的方法专注于时间序列数据,依赖于时间步长之间的顺序或依赖关系,常用于视频或时间序列预测。基于对比的方法通过拉近相似样本、推远不相似样本来学习有判别力的表示,广泛应用于多种类型的数据。每种方法都有其适合的场景和局限,随着自监督学习的发展,它们常常结合使用以提高学习效果。原创 2024-09-18 21:57:13 · 1297 阅读 · 0 评论 -
WTAL(三)---Compact Representation and Reliable Classification Learning for PL-WTAL
在未来的工作中,我们还将尝试探索一些有效机制,以从相同模态中的不同类别提取和利用互补信息,从而实现更精确的时序动作定位。在本文中,我们分析了阻碍弱监督时序动作定位(WSTAL)性能的两个重要问题,即低区分度的分类学习和动作内部特征的巨大差异,并提出了一个统一框架CRRC-Net,用于稳健的点级弱监督时序动作定位。)模块,该模块利用点级注释挖掘伪训练样本进行自监督特征学习,以确保特征空间中的两个相似(或不相似)样本在另一个特征空间中也具有相似(或不相似)的特征,从而增强特征表示的紧凑性并减少动作内部变异。原创 2024-09-09 20:27:47 · 1066 阅读 · 0 评论 -
CoLA: Weakly-Supervised Temporal Action Localization with Snippet Contrastive Learning
按照 [39, 30, 14] 的方法,我们采用了 top-k 均值策略:对于每个类别 c,我们选取 keasy 个具有最大类别特定 T-CAS 值的片段,并计算它们的均值作为视频 Vn的类别 c 的视频级别分类分数 an;给定一个输入视频,我们首先预测其片段级别的类别激活,以形成 T-CAS,并根据第 3.4.1 节中描述的 top-k 简单分数来聚合,从而获得视频级别的预测。然而,对于接近边界的片段,它们的可靠性较低,因为它们处于动作和背景之间的过渡区域,从而导致检测模糊。原创 2024-09-01 17:03:47 · 1113 阅读 · 0 评论 -
多实例学习(MIL)
原创 2024-08-27 12:24:24 · 150 阅读 · 0 评论 -
机器学习之自监督学习(五)MAE翻译与总结(二)
,因为有标签的数据集需要大量的人工去进行标注,需要非常高的人工成本,但是无标签的数据在网络上到处可见,通过爬取的方式也便于收集。在编码过程中,编码器会强制模型通过学习来去除输入数据中的噪声,使得编码的特征表示尽可能干净和有用。第一个阶段不涉及任何的下游任务,就是拿着一堆无标签的数据去训练我们的网络,没有设定特定的任务。而想象出它的样子来。)是一种神经网络模型,旨在从包含噪声的输入数据中学习干净的、有用的特征表示。,去噪自动编码器是一类自动编码器,它破坏输入信号,并学会重构原始的、未被破坏的信号。原创 2023-11-23 15:23:01 · 333 阅读 · 0 评论 -
机器学习之自监督学习(五)MAE翻译与总结(一)
一个合理深的解码器可以弥补重建专业化在识别方面的不足,将潜在表示留在更抽象的层次上。线性分类层,然后在特定数据集上进行微调,端到端就是在特定数据集上可以通过训练修改模型参数,线性探测是仅仅在特定数据集上训练最后的线性分类层。这个编码器的输入中有很大一部分是掩模标记,而在未被损坏的图像中不存在这些掩模标记。我们的方法包括一个编码器,将观察到的信号映射到潜在表示,以及一个解码器,从潜在表示和掩模标记中重建原始信号。图像只是记录的光线,没有将其分解成视觉上的单词的语义。对于线性探测来说,足够深的解码器非常重要(原创 2023-11-23 15:00:11 · 941 阅读 · 0 评论 -
机器学习之自监督学习(四)MoCo系列翻译与总结(二)
它的主要目标是通过去除输入数据中的噪声,学习到输入数据的有用表示,从而提高模型对干净数据的鲁棒性。是一种自动编码器的变体,其目标是通过利用上下文信息,即与输入数据相关的周围环境或上下文,来学习更具意义和上下文感知的表示。是一种自动编码器的变体,其目标是通过考虑输入数据在通道(channel)维度上的关系,学习更具有跨通道相关性的表示。- **考虑通道关系:** 在学习表示时,关注输入数据在通道维度上的相关性,以更好地捕捉跨通道信息。文本处理: 上下文自动编码器可用于学习词语或句子的上下文感知表示。原创 2023-11-23 14:48:40 · 403 阅读 · 0 评论 -
机器学习之自监督学习(四)MoCo系列翻译与总结(一)
由于字典的键来自前几个小批量,我们提出了一个缓慢前进的键编码器,实现为查询编码器的基于动量的移动平均,以维持一致性(动态一致性)。移除最先进入的小批次可能是有益的,因为它的编码键是最过时的,因此与最新的编码键一致性最差。,表明:有监督训练的特征分布和无监督训练的特征分布是存在很大的差距的。(最近的关于对比学习的研究主要表现在动态字典的构建方面。的固定字典大小的限制都成为这两个模型在大的数据上扩展的阻碍。预训练任务和损失函数(代理任务的选择以及损失函数的构建)有趣的是,迁移的准确性取决于检测器的结构。原创 2023-11-23 14:14:29 · 905 阅读 · 0 评论 -
机器学习之自监督学习(三)BeiT-视觉BERT预训练模型翻译与总结
待补充。原创 2023-11-23 14:13:28 · 156 阅读 · 0 评论 -
机器学习之自监督学习(二)SimCLR翻译与总结
待补充。原创 2023-11-23 14:12:16 · 100 阅读 · 0 评论 -
机器学习之自监督(一)大规模预训练BERT翻译与总结
待补充。原创 2023-11-23 14:08:07 · 87 阅读 · 0 评论