格拉姆矩阵(Gram Matrix)

最新推荐文章于 2025-10-21 17:06:36 发布

转载最新推荐文章于 2025-10-21 17:06:36 发布 · 9.9k 阅读

本文深入探讨了Gram矩阵的概念及其在深度学习风格迁移中的应用。通过解析Gram矩阵如何反映向量间的关系，揭示了它在捕捉图像风格特征方面的独特作用。文章还提供了计算Gram矩阵的MATLAB示例。

1、Gram矩阵的定义

n维欧式空间中任意k个向量之间两两的内积所组成的矩阵，称为这k个向量的格拉姆矩阵(Gram matrix)

根据定义可以看到，每个Gram矩阵背后都有一组向量，Gram矩阵就是由这一组向量两两内积得到的，先说一下向量内积是做什么的。

一个重要的应用就是可以根据内积判断向量a和向量b之间的夹角和方向关系,具体来说：

a·b>0    方向基本相同，夹角在0°到90°之间
a·b=0    正交，相互垂直
a·b<0    方向基本相反，夹角在90°到180°之间
简单来说就是内积可以反映出两个向量之间的某种关系或联系。Gram矩阵是两两向量的内积组成的，所以Gram矩阵可以反映出该组向量中各个向量之间的某种关系。

风格迁移中的Gram矩阵

深度学习中经典的风格迁移大体流程是：
1. 准备基准图像和风格图像
2. 使用深层网络分别提取基准图像（加白噪声）和风格图像的特征向量（或者说是特征图feature map）
3. 分别计算两个图像的特征向量的Gram矩阵，以两个图像的Gram矩阵的差异最小化为优化目标，不断调整基准图像，使风格不断接近目标风格图像

这里边比较关键的一个是在网络中提取的特征图，一般来说浅层网络提取的是局部的细节纹理特征，深层网络提取的是更抽象的轮廓、大小等信息。这些特征总的结合起来表现出来的感觉就是图像的风格，由这些特征向量计算出来的的Gram矩阵，就可以把图像特征之间隐藏的联系提取出来，也就是各个特征之间的相关性高低。如果两个图像的特征向量的Gram矩阵的差异较小，就可以认定这两个图像风格是相近的。

格拉姆矩阵可以看做feature之间的偏心协方差矩阵（即没有减去均值的协方差矩阵），在feature map中，每个数字都来自于一个特定滤波器在特定位置的卷积，因此每个数字代表一个特征的强度，而Gram计算的实际上是两两特征之间的相关性，哪两个特征是同时出现的，哪两个是此消彼长的等等，同时，Gram的对角线元素，还体现了每个特征在图像中出现的量，因此，Gram有助于把握整个图像的大体风格。有了表示风格的Gram Matrix，要度量两个图像风格的差异，只需比较他们Gram Matrix的差异即可。

3、计算实例

MATLAB计算程序及结果：

x1=[3,3]',
x2=[4,3]',
x3=[1,1]',
G=[x1'*x1,x1'*x2,x1'*x3;
    x2'*x1,x2'*x2,x2'*x3;
    x3'*x1,x3'*x2,x3'*x3]

G =

18 21 6

21 25 7

6 7 2