SPAN: Spatial Pyramid Attention Network for Image Manipulation Localization

原创

已于 2025-09-18 20:47:12 修改 · 1.5k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#tensorflow #深度学习 #自然语言处理

于 2021-09-03 14:57:43 首次发布

本文介绍了一个基于Spatial Pyramid Attention Network (SPAN) 的图像操纵定位方法，该网络来源于USC、IIT和Facebook AI的研究。文章指出，SPAN模型需要至少两个GPU来运行，且未提供requirement.txt，这给单GPU用户带来了困难。网络结构包括预训练的Mantra Net特征提取器和5个Self-Attention Blocks，其中Self-Attention Block被解释为一种特殊的卷积层，能够捕获像素邻域的信息。代码链接和作者的不厚道行为也在讨论之中。

SPAN: Spatial Pyramid Attention Network for Image Manipulation
Localization

University of Southern California, Los Angeles, USA
Indian Institute of Technology, Bombay, Mumbai, India
Facebook AI, Menlo Park, USA

ECCV 2020

在这里插入图片描述

代码链接

https://github.com/ZhiHanZ/IRIS0-SPAN/blob/d8e4241f151ef2f40eacbb970fe5e3f531c6a4b4/README.md

不过这个作者提供的权重是多gpu的，准确来说是2个GPU，没有这个资源用他这个训练好的模型。受不了。这个作者也是不厚道。使用的tensorflow的框架。
这个代码整了两天没跑起来。生气

这个作者的不厚道有2点

至少配备2个GPU才能够使用这个模型。给multi gpu训练的模型是一种很糟糕的行为，根本就没打算让大多数人测试。
没有提供requirement.txt.

网络框架

在这里插入图片描述
这个 pre-trained feature extracion 使用的是mantra net 的预训练模型，训练时候冻结。

后接5个self attention block.

这个self attention有些玄妙。

self attention block

在这里插入图片描述
不知道有没有理解错。
只需要理解成特殊的卷积层即可。
输入输出的矩阵大小没有变化。

中间层把D通道转为了9D通道（假设了n=1,为8邻域。）
9D为自身以及周围的8个点。为原本的通道数*9.

这个玄妙的地方大概在于 能够把一个像素点为中心的周围(2n+1)*(2n+1)邻域之内的所有像素的信息全部接收到一个对应点。

本来这东西是NLP领域提出的，不使用RNN，就得到时间顺序信息。图像和语言还是有些差别的。语言中的语言顺序和图像的邻域或许是等价的吧。

这是抄的这个作者的tensorflow 代码

基本和此图的结果相同，可能卷积层的数量稍微有点出入。
在这里插入图片描述

self attention 代码

from keras.engine.topology import Layer
import tensorflow as tf
import keras
from matplotlib.image import imread, imsave
from keras import backend as K


class PixelAttention(Layer):
    def __init__(self, kernel_range=[3, 3], shift=1, ff_kernel=[3, 3], useBN=False, useRes=False, **kwargs):
        self.kernel_range = kernel_range  # should be a list
        self.shift = shift
        self.ff_kernel = ff_kernel
        self.useBN = useBN
        self.useRes = useRes
        super(PixelAttention, self).__init__(**kwargs)

    def build(self, input_shape):
        D = input_shape[-1]
        n_p = self.kernel_range[0] * self.kernel_range[1]
        self.K_P = self.add_weight(name='K_P', shape=(1, 1, D, D * n_p),
                                   initializer='glorot_uniform',
                                   trainable=True)
        self.V_P = self.add_weight(name='V_P', shape=(1, 1, D, D * n_p),
                                   initializer='glorot_uniform',
                                   trainable=True)
        self.Q_P = self.add_weight(name='Q_P', shape=(1, 1, D, D),
                                   initializer='glorot_uniform',
                                   trainable=True)

        self.ff1_kernel = self.add_weight(name='ff1_kernel',
                                          shape=(3, 3, D, D),
                                          initializer='glorot_uniform', trainable=True)
        self.ff1_bais = self.add_weight(name='ff1_bias',
                                        shape=(D,), initializer='glorot_uniform', trainable=True)
        self.ff2_kernel = self.add_weight(name='ff2_ke

最低0.47元/天解锁文章