Masked Relation Learning for DeepFake Detection

Facefusion

Facefusion

AI应用

FaceFusion是全新一代AI换脸工具,无需安装,一键运行,可以完成去遮挡,高清化,卡通脸一键替换,并且Nvidia/AMD等显卡全平台支持

一、研究背景
1.现有deepfake检测方法大多关注于局部伪影或面部不协调,较少挖掘局部区域间的关系。
2.现有关系挖掘类的工作往往忽略了关系信息的传播。
3.遮挡建模在减轻信息冗余的同时促进高级语义信息(诱导性偏差较小)的挖掘,有助于提升网络的泛化性能。

二、研究动机
1.Deepfake技术会单独操纵视频中的每一帧,伪造结果缺乏时间连贯性。基于视频的检测技术更加关注相邻帧之间的时间不连贯性和时空不一致性,可降低对空间伪影的依赖并提升泛化性能。
2.将关系特征作为一种泛化模式可以提升检测性能,但大量的冗余关系信息会阻碍信息的表达。遮挡建模能减少信息的冗余,迫使模型习得更具泛化性的内在特征。

三、研究目标
从区域级关系中学习通用的鉴别性特征,减轻对视觉伪影的依赖。

四、技术路线

  • 本文将deepfake检测任务定义为图分类问题,每个面部区域作为一个图的结点,并对结点间的关系进行建模。
  • 对部分关系进行屏蔽,减少冗余并促进模型对全局结构的感知
  • 实现在无监督的情况下定位面部伪造区域。
    在这里插入图片描述

1.时空注意力模块(STA):
学习不同面部区域的注意力特征。

  • 将特征图 F 0 t F_{0}^t F0t转换为注意力图 F A t F_{A}^t FAt
  • 用注意力图强调特征图得到注意力特征图 F t F^t Ft
  • 对注意力特征图进行平均归一化得到注意力特征向量 V t V^t Vt
    在这里插入图片描述
  • 设置正交多样性损失 L o d L_{od} Lod使不同注意力特征向量关注不同面部信息
  • T为视频片段划分数量, V t ∈ R N ∗ C V^t\in \mathbb{R}^{N*C} VtRNC N N N为注意力头数量, I I I为单位阵
  • (4)使不同注意力头的输出差异尽可能大
    在这里插入图片描述
  • 设置时间一致性损失 L t c L_{tc} Ltc,使每个注意力头在时间维度上追踪各自区域
  • (5)使相邻帧之间的注意力向量保持一致
    在这里插入图片描述

2.遮挡关系学习模块(MRL):
屏蔽部分区域间的相关性以减少信息冗余,以此促进对本质特征的学习并捕获全局视角下的不规则关系。

  • 最小屏蔽策略:计算门限值 q q q p p p为预定义参数
    在这里插入图片描述

  • 随机屏蔽策略:根据伯努利分布采样 η \eta η
    在这里插入图片描述

  • 利用TGCN捕获不规则关系:TGCN由GCN和GRU构成

  • 在这里插入图片描述

  • 对特征关系图进行图卷积计算
    在这里插入图片描述

  • 对隐藏层进行图卷积计算
    在这里插入图片描述

  • 更新隐藏层
    在这里插入图片描述
    3.特征分类
    在这里插入图片描述
    4.损失函数
    在这里插入图片描述
    5.算法流程
    在这里插入图片描述
    在这里插入图片描述
    五、实验结果
    Although our method has sub-optimal performance on FF++(HQ), it outperforms state-of-the-art approaches on detecting
    unseen deepfake datasets. Strong generalization ability is one of the pursuits of deepfake detection. Our method effectively promotes the generalization ability of detectors.
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    Hereby we localize the fake regions by Grad-CAM in Fig. 9. We observe that our method can highlight the fake regions of
    manipulated faces. For instance, NeuralTextures only modifies the mouth region
    在这里插入图片描述

您可能感兴趣的与本文相关的镜像

Facefusion

Facefusion

AI应用

FaceFusion是全新一代AI换脸工具,无需安装,一键运行,可以完成去遮挡,高清化,卡通脸一键替换,并且Nvidia/AMD等显卡全平台支持

### 学习深度学习在自然语言处理中的应用 对于初学者来说,理解深度学习如何应用于自然语言处理(NLP),尤其是像 Transformer 和 BERT 这样的重要模型,是一个循序渐进的过程。以下是关于这些主题的一些核心概念和资源。 #### 什么是Transformer? Transformer 是一种基于自注意力机制的神经网络架构,最初由 Vaswani 等人在论文《Attention is All You Need》中提出[^2]。相比于传统的 RNN 或 LSTM 架构,Transformer 提供了一种并行化的方式来进行序列建模,从而显著提高了训练效率和性能。其主要特点包括: - **Self-Attention Mechanism**: 让模型能够关注输入序列的不同部分,而不需要依赖于固定的顺序。 - **Positional Encoding**: 由于 Transformer 不具备内在的时间/空间顺序感,因此引入位置编码来表示单词的位置信息。 ```python import torch from transformers import BertTokenizer, BertModel tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = BertModel.from_pretrained('bert-base-uncased') input_ids = tokenizer("Hello world", return_tensors="pt")['input_ids'] outputs = model(input_ids) last_hidden_states = outputs.last_hidden_state print(last_hidden_states.shape) # 输出形状 (batch_size, sequence_length, hidden_size) ``` 这段代码展示了如何加载预训练好的 BERT 模型以及对其进行简单的推理操作。 #### 关于BERT的理解 BERT(Bidirectional Encoder Representations from Transformers)是一种双向变压器结构,在大规模无监督语料库上进行了预训练,并可以通过微调适应各种下游任务。它解决了传统单向语言模型无法充分利用上下文信息的问题。具体而言: - **Pretraining Tasks**: Masked Language Model (MLM) 和 Next Sentence Prediction (NSP)[^2]。 - **Fine-Tuning**: 可以针对特定的任务调整参数,比如情感分析、问答系统等。 #### 推荐的学习路径 为了更好地掌握 NLP 中的深度学习方法论及其实践技巧,可以按照如下建议逐步深入探索: 1. 阅读经典教程与文档,例如 graykode 的 `nlp-tutorial`[^1]; 2. 动手尝试 Hugging Face 提供的各种工具包; 3. 结合实际案例项目加深理论认知水平; 最后值得注意的是,尽管当前主流趋势表明 transformer 已经取代了许多早期流行的循环单元设计思路[^3],但对于刚入门的新手而言,熟悉基本原理仍然非常重要。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二苏旧局吖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值