自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 AUNet: Learning Relations Between Action Units for Face Forgery Detection

背景:模型推广到未知操作时,性能显著下降,泛化性差motivation:观察到face manipulation may alter the relation between different facial action units (AU)解决:提出了Action-Units Relation Learning framework。

2024-12-11 22:06:19 1058

原创 Real Appearance Modeling for More General Deepfake Detection

当test和train使用相同的伪造类型时,detector具有卓越的性能,但是推广到未知的deepfake的能力仍然有限总结:当前的detector面对未知方法的泛化性差检测器将那些包含真实面部所没有的异常的面部分类为fake,也就是说检测器应该去学习real face的一致性,而不是学习训练集中的fake patterns,尤其是学习到的fake patterns不一定适用于未知的伪造方法。

2024-12-11 16:19:59 838

原创 Exploring Temporal Coherence for More General Video Face Forgery Detection

背景:现有生成算法效果逼真,但在生成时间连贯的人脸视频上仍存在困难提出问题:如何充分利用时间一致性进行视频人脸伪造检测解决方案:The first stage is a fully temporal convolution network (FTCN),FTCN的关键思想是将空间卷积核的大小减小到1,同时保持时间卷积核大小不变。这种特殊的设计不仅有利于模型提取时间特征,而且提高了模型的泛化能力。

2024-11-28 22:47:46 984

原创 Exploiting Style Latent Flows for Generalizing Deepfake Video Detection

问题:作者发现生成的人脸视频在风格潜在向量的时间变化上存在时间特异性,这种问题来源于生成过程试图在保持视频时间一致性(即视频看起来流畅)的同时,还需要适应不同帧中面部表情或几何变化的要求。解决办法:1.利用通过对比学习训练的StyleGRU module来表示style latent vectors的动态属性,提取它们的时间变化特征。

2024-11-27 18:25:31 1123

原创 Fake It till You Make It: Curricular Dynamic Forgery Augmentations towards General Deepfake Detectio

背景问题:deepfake detector在未知数据集和未知方法的伪造视频上性能下降,即泛化性差解决方案:CDFA(Curricular Dynamic Forgery Augmentation)CDFA:联合训练一个deepfake detector和forgery augmentation policy network在训练期间,按照monotonic curriculum渐进地应用forgery augmentation。

2024-11-27 11:06:53 911

原创 遇到的代码问题

满屏全是悲伤

2024-08-26 15:39:09 227

原创 优化算法:梯度下降、Adam

梯度下降法:先求切线,然后在切线上进行移动,移动的距离就是每一步的步长,如果步长比较短,那么切线上的取值和曲线上的取值还是比较接近的,如果步长比较大,二者的距离偏差就会比较大。,参数的⽅差⼤⼤减少,但是,这是以未能收敛到最优解x = (0, 0)为代价的。新的梯度替换不再指向特定实例下降最陡的⽅向,⽽是指向过去梯度的加权平均值的⽅向。优化主要关注的是最⼩化⽬标函数,由于优化算法的⽬标函数通常是基于训练数据集的损失函数,因此优化的⽬标是减少训练误差。是关于索引i的训练样本的损失函数,其中x是参数向量。

2024-08-20 15:10:09 1840

原创 图神经网络:ST-GCN、AS-GCN、2S-AGCN、MS-G3D、CTR-GCN

在CNN中,对一个以x为中心,宽为w,高为h的区域做卷积,其输出可以表达为以下形式:当h=3,w=3,步长、padding都为1时,它就是一个3*3卷积核的计算公式。本文真正采用的方法,r表示节点到重心的距离,将节点的1邻域划分为3个子集:根节点本身、空间位置上比根节点更远离整个骨架的邻居节点、更靠近中心的邻居节点、如上图所示,要得到结点B的聚合特征时,会分配较大的权重给B(其自身,度为3),而给E(度为5)更小的权重。人体关节对应图的节点,人体身体结构的连通性和时间上的连通性对应图的两类边。

2024-08-08 22:10:16 1034 3

原创 Transformer、Swin Transformer、VIT、TimeS-former

通过卷积[224, 224, 3] -> [14, 14, 768],然后把H以及W两个维度展平即可[14, 14, 768] -> [196, 768],此时正好变成了一个二维矩阵,正是Transformer想要的。这个[class]token是一个可训练的参数,数据格式和其他token一样都是一个向量,以ViT-B/16为例,就是一个长度为768的向量,与之前从图片中生成的tokens拼接在一起,Cat([1, 768], [196, 768]) -> [197, 768]。

2024-08-01 15:16:15 1070 1

原创 循环神经网络:RNN、GRU、LSTM、深度循环神经网络、双向循环神经网络、seq2seq

LSTM 可以学习只保留相关信息来进行预测,并忘记不相关的数据。简单说,因记忆能力有限,记住重要的,忘记无关紧要的。LSTM通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是LSTM的默认行为,而非需要付出很大代价才能获得的能力!所有RNN都具有一种重复神经网络模块的链式的形式。在标准的RNN中,这个重复的模块只有一个非常简单的结构,例如一个tanh层。激活函数 Tanh 作用在于帮助调节流经网络的值,使得数值始终限制在 -1 和 1 之间。

2024-07-31 13:01:45 2150

原创 【动手学深度学习】七、现代卷积神经网络

AlexNet是第一个深度卷积网络模型,赢得了2012年ImageNet图像分类竞赛的冠军,自98年的LeNet后再次将深度学习研究引热,创造性的提出了很多方法且影响至今,如使用GPU进行训练使用ReLU 作为非线性激活函数使用 Dropout 防止过拟合使用数据增强来提高模型准确率等。论文地址VGGNet是牛津大学视觉几何组(Visual Geometry Group)提出的模型,该模型在2014ImageNet图像分类与定位挑战赛 ILSVRC-2014中取得在分类任务第二,定位任务第一的优异成绩。

2024-07-25 10:38:33 1125

原创 目标检测:RCNN、Fast RCNN、Faster RCNN、Mask RCNN、SSD

anchor不是候选框(Proposal),后面会提到二者的区别。我们在特征图中找一个点,就可以在原图中找到对应的一个像素点,以该像素点为中心,画出9个不同大小和长宽比的框,称为anchor。如下图所示,这些anchor里面可能包含目标,也可能没有目标。因为我们在一张图中想找的的目标的大小和长宽比并不是固定的,所以这里用9个不同大小和长宽比的anchor来进行预测。那么为什么是9个anchor呢?

2024-07-19 14:53:23 937

原创 方向导数和梯度

一 偏导数二 方向余弦三 方向导数四 方向导数的计算补充:全微分方程五 梯度

2024-07-07 22:43:27 241

原创 矩阵的导数运算

使用分母布局,结果是A的转置,使用分子布局,结果是A。和链式求导的第一个图相比,结果只是调换了一下顺序。

2024-07-07 22:31:15 259

原创 mmaction学习笔记:日志文件处理

mmaction平台的使用

2024-03-22 19:19:23 321 1

原创 如何阅读一篇科研论文

如何读论文

2024-01-10 14:28:20 423

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除