[ICLR 2024] CLIP-MUSED:CLIP引导的多主体视觉神经信息语义解码
CLIP-MUSED:CLIP引导的多主体视觉神经信息语义解码
- <center>[ICLR 2024] CLIP-MUSED:CLIP引导的多主体视觉神经信息语义解码
- 一、研究目的
- 以往怎么让神经信息带有语义信息
- 二、研究背景
- 三、研究内容(主要贡献)
- 四、技术路线
- 4.1 Overview
- 4.2 CLIP-BASED FEATURE EXTRACTION OF VISUAL STIMULI(基于clip的视觉特征提取 这里的过程也对我的工作可能有一定的帮助)
- 4.3 TRANSFORMER-BASED FMRI FEATURE EXTRACTION(基于Transformer的FMRI信号特征提取 具体不用详细了解)
- 4.4 MULTI-SUBJECT SHARED NEURAL RESPONSE REPRESENTATION(我认为这里是对自己的工作启发最大的地方)
- 4.5 SEMANTIC CLASSIFIER
- 4.6 OPTIMIZATION OBJECTIVE
- 五、实验结果
- 六、未来的研究工作
一、研究目的
在视觉神经解码领域,通过对fMRI信号的解码,我们能够揭示大脑对视觉刺激的反应活动,并从中提取出丰富的语义信息。
实际上就是从原始的fMRI信号数据中分别提取出与 刺激图像的低层次特征(例如物体的轮廓、颜色) 和 高层次特征(物体的表面纹理) 有关的fMRI特征(我觉得这个方法其实也可以泛化到EEG信号中去,因为模型的框架并没有为fMRI信号的特定做什么特殊的设计)
以往怎么让神经信息带有语义信息
这里补充一下 在EEG2IMAGE的这个方向 大家一般怎么将EEG feature进行语义解码的
- 先说说DreamDiffusion怎么做的:
我们提出利用额外的 CLIP [28] 监督来帮助对齐 EEG、文本和图像空间。具体而言,从预训练编码器获得的 EEG 特征通过投影层转换为与 CLIP 嵌入相同维度的嵌入表示。然后,我们使用一个损失函数来最小化 EEG 嵌入与从 CLIP 图像编码器获得的图像嵌入之间的距离。在微调过程中,CLIP 模型保持固定。该损失函数定义如下:
L
c
l
i
p
=
1
−
E
I
(
I
)
⋅
h
(
τ
θ
(
y
)
)
∣
E
I
(
I
)
∣
∣
h
(
τ
θ
(
y
)
)
∣
,
\mathcal{L}_{clip}=1-\frac{E_I(I)\cdot h(\tau_\theta(y))}{|E_I(I)||h(\tau_\theta(y))|},
Lclip=1−∣EI(I)∣∣h(τθ(y))∣EI(I)⋅h(τθ(y)),
其中,
h
h
h 是一个投影层,
E
I
E_I
EI 是 CLIP 图像编码器。该损失函数可以促使 EEG 特征与图像更加紧密地对齐,从而与文本特征更加相似。通过这种方式,我们可以在一个统一的空间内对齐 EEG 信号、文本和图像。优化后的 EEG 嵌入表示更适合用于 Stable Diffusion 的图像生成,从而提升生成图像的质量。
- 再看看NeurIPS 2024的ATM那篇文章提出的方法:
作者对损失函数采用双重方法,服务于不同的目标。对于分类和检索任务,我们仅利用 CLIP 损失,该损失函数有助于将 EEG 数据 E 与相应的图像数据 I 对齐。对于生成任务,除了 CLIP 损失之外,我们还添加了均方误差(MSE)损失以促进回归中的一致性学习。因此,模型的整体损失函数是这两种不同损失类型的组合,表示为:
L o s s = λ ⋅ L C L I P + ( 1 − λ ) ⋅ L M S E Loss=\lambda\cdotp L_{CLIP}+(1-\lambda)\cdotp L_{MSE} Loss=λ⋅LCLIP+(1−λ)⋅LMSE
这里, λ \lambda λ是一个超参数,用于平衡每种损失类型的贡献。
二、研究背景
2.1 以往工作的多主体解码方法
单受试者模型容易出现过度拟合。此外,单主体模型在新主体上的泛化性能较弱。相比之下,多受试者解码方法可以汇总来自多个受试者的数据,缓解过度拟合问题,并在不同受试者之间实现卓越的性能。
大多数多主体解码方法 都是基于超配准(hyperalignment)(Haxby 等人,2020;Chen 等人,2015),这是一种经典的功能配准方法。如图 1 所示,受试者 S1 和 S2 观看四个刺激(t1 ∼ t4),这些刺激在每个受试者的voxel space中表示为高维向量。通过学习映射函数 R j R_j Rj,超对齐将神经反应从每个受试者的voxel space转换到共享空间。
如图 1 中的同色球所示,它将不同受试者在相同刺激下的神经表征汇集到共享空间中,从而对齐不同受试者的功能拓扑结构。
然而,超对齐无法处理数据采集过程中不同受试者看到不同刺激的常见情况。为了应对这一挑战,Li 等人(2020 年)提出了一种基于类别的功能配准方法。如图 1 所示,该方法将不同受试者在共享空间中与同一类别刺激(两幅鸟类图像 t1 和 t2)相关的神经表征整合在一起。
2.2 以往的神经信息解码工作存在的不足
- 映射函数 Ri 的表达能力有限。Yousefnezhad & Zhang(2017)讨论的线性变换和 Yousefnezhad & Zhang(2017)使用的由堆叠线性层组成的 MLP 不适合高维体素响应。为了克服这一局限,Chen 等人(2016 年)提出了一种基于 CNN 的超对齐算法。然而,CNN 在捕捉反映大脑区域之间长程功能连接性的全局特征方面面临挑战。
- 目前的研究需要为每个研究对象学习不同的映射函数 Ri。随着受试者数量的增加,模型参数的数量也会线性增加,从而导致计算复杂度大大增加。
- 现有方法还不能完全描述不同受试者在类似刺激下的神经反应之间的关系。然而,研究表明,不同受试者在受到语义相似的视觉刺激时会表现出相似的神经反应
三、研究内容(主要贡献)
我们提出了一种以 CLIP 为指导的多对象视觉神经信息语义解码方法(CLIP-MUSED),如图 2 所示。该方法利用基于Transformer的 fMRI 特征提取器,将每个受试者的神经反应从原始voxel space映射到共享空间。我们进一步将个体差异分为两类:视觉刺激低级特征(如形状和颜色)和高级特征(如语义类别)处理模式的差异。为了对这两类差异进行编码,我们将每个受试者的低级token和高级token纳入Transformer架构。所提出的方法利用 CLIP 浅层和深层中视觉刺激的拓扑关系,通过表征相似性分析(RSA)分别指导低层和高层token的表征学习。为了确保同一研究对象的低层和高层标记表征尽可能多地编码不同的信息,我们在之前研究(Niu et al.) 鉴于低层次和高层次特征在语义分类中都起着至关重要的作用,我们将每个受试者的低层次和高层次token表征串联起来进行语义分类。
四、技术路线
4.1 Overview
首先将 I 中的图像刺激映射到 CLIP 的表示空间 F。然后,使用Transormer提取器将 X (n) 的神经响应映射到共享空间 Z。最后,使用 RSA,利用 F 中视觉刺激的拓扑关系指导 Z 的表征学习。
4.2 CLIP-BASED FEATURE EXTRACTION OF VISUAL STIMULI(基于clip的视觉特征提取 这里的过程也对我的工作可能有一定的帮助)
我们将视觉刺激和相应的文本信息(文本描述或标签名称)一起输入 CLIP,以获得多模态特征。由于 CLIP 的分层结构,我们使用图像编码器的第一层特征作为低层特征 fllv,而 CLIP 最后一层的图像和文本特征的平均值作为多模态高层特征 fhlv。 我们计算表示相似性矩阵(representation similarity matrices,RSM),即
M
l
l
v
I
M^{I}_{llv}
MllvI 和
M
h
l
v
I
M^I_{hlv}
MhlvI,以量化 B 个视觉刺激在低层和高层特征空间中的相似性,其中 B 表示迷你批次中的批次大小。具体来说,
M
l
l
v
I
[
i
,
j
]
M^{I}_{llv}[i, j]
MllvI[i,j] 和
M
h
l
v
I
[
i
,
j
]
M^I_{hlv}[i, j]
MhlvI[i,j] 分别表示第
i
i
i 张和第
j
j
j 张图像在特征空间
F
l
l
v
\mathcal{F}_{llv}
Fllv 和
F
h
l
v
\mathcal{F}_{hlv}
Fhlv 中的余弦相似度。
4.3 TRANSFORMER-BASED FMRI FEATURE EXTRACTION(基于Transformer的FMRI信号特征提取 具体不用详细了解)
为了确保我们的模型适用于不同的研究对象,我们设计了一个基于Transormer的 fMRI 特征提取器,其中包含特定研究对象的标记(就是类似bert前面添加的一个class token, 这里采用的方法类似于neurIPS 2024 ATM那篇文章, 都是用subject token来让模型适用于不同的研究对象),与传统的Transformer不同,该模型包括可学习的特定主题低级和高级token X l l v {X}_{llv} Xllv 和 X h l v {X}_{hlv} Xhlv,
4.4 MULTI-SUBJECT SHARED NEURAL RESPONSE REPRESENTATION(我认为这里是对自己的工作启发最大的地方)
CLIP-MUSED 利用 CLIP 特征空间
F
l
l
v
\mathcal{F}_{llv}
Fllv 和
F
h
l
v
\mathcal{F}_{hlv}
Fhlv 中视觉刺激之间的拓扑关系来指导表征学习过程,从而捕捉不同受试者对视觉刺激的不同处理模式,并将其编码为低级和高级token表征(
Z
l
l
v
Z_{llv}
Zllv、
Z
h
l
v
Z_{hlv}
Zhlv)。
引导是通过**表征相似性分析(RSA)**实现的。首先,对 B 神经信号进行随机取样,得到低级和高级表征(
Z
l
l
v
Z_{llv}
Zllv、
Z
h
l
v
Z_{hlv}
Zhlv)。接下来,我们分别为低级和高级表征
Z
l
l
v
Z_{llv}
Zllv 和
Z
h
l
v
Z_{hlv}
Zhlv 计算表征相似性矩阵(RSM)
M
l
l
v
X
M^X_{llv}
MllvX、
M
h
l
v
X
M^X_{hlv}
MhlvX ∈
R
B
×
B
\mathbb{R}^{B×B}
RB×B。其中,
M
l
l
v
X
[
i
,
j
]
M^X_{llv}[i, j]
MllvX[i,j] 表示
Z
l
l
v
[
i
]
Z_{llv}[i]
Zllv[i] 和
Z
l
l
v
[
j
]
Z_{llv}[j]
Zllv[j] 之间的余弦相似度。在训练过程中,我们会对所有受试者的样本进行shuffle,并从中随机取样。在一个迷你批次中,
Z
l
l
v
[
i
]
Z_{llv}[i]
Zllv[i] 和
Z
l
l
v
[
j
]
Z_{llv}[j]
Zllv[j] 可能来自不同的被试。多模态特征空间中视觉刺激的拓扑关系和共享空间是通过最小化差值矩阵的平方 F 正态(以矩阵大小归一化)来对齐的,即
L
l
l
v
=
∥
M
l
l
v
I
−
M
l
l
v
X
∥
F
2
/
B
2
L
h
l
v
=
∥
M
h
l
v
I
−
M
h
l
v
X
∥
F
2
/
B
2
\mathcal{L}_{llv}=\left\|\mathbf{M}_{llv}^{\mathbf{I}}-\mathbf{M}_{llv}^{\mathbf{X}}\right\|_{F}^{2}/B^{2}\\ \mathcal{L}_{hlv}=\left\|\mathbf{M}_{hlv}^{\mathbf{I}}-\mathbf{M}_{hlv}^{\mathbf{X}}\right\|_{F}^{2}/B^{2}
Lllv=
MllvI−MllvX
F2/B2Lhlv=
MhlvI−MhlvX
F2/B2
4.5 SEMANTIC CLASSIFIER
低级视觉特征和高级语义特征对于语义分类都至关重要。为了充分利用这两类特征,低级和高级标记表征被串联起来,并输入 MLP 网络进行分类。模型输出预测概率
y
^
\hat{y}
y^。语义分类过程可形式化如下:
z
=
C
O
N
C
A
T
(
z
l
l
v
,
z
h
l
v
)
y
^
=
M
L
P
(
z
)
\mathbf{z}=\mathrm{CONCAT}(\mathbf{z}_{llv},\mathbf{z}_{hlv})\\ \mathbf{\hat{y}}=\mathrm{MLP}(\mathbf{z})
z=CONCAT(zllv,zhlv)y^=MLP(z)
交叉熵损失函数被用作分类损失;
L
c
=
−
1
C
∑
j
=
1
C
[
y
j
log
(
y
^
j
)
+
(
1
−
y
j
)
log
(
1
−
y
^
j
)
]
\mathcal{L}_{c}=-\frac{1}{C}\sum_{j=1}^{C}\left[\mathbf{y}_{j}\log(\mathbf{\hat{y}}_{j})+(1-\mathbf{y}_{j})\log(1-\mathbf{\hat{y}}_{j})\right]
Lc=−C1j=1∑C[yjlog(y^j)+(1−yj)log(1−y^j)]
4.6 OPTIMIZATION OBJECTIVE
为了==鼓励每个刺激的低层次和高层次标记表征尽可能不同==,所提出的方法采用了一种正交约束条件:
min
L
⊥
=
∥
z
l
l
v
z
h
l
v
T
∥
F
2
/
B
2
.
(
15
)
\min\mathcal{L}_{\perp}=\left\|\mathbf{z}_{llv}\mathbf{z}_{hlv}^{T}\right\|_{F}^{2}/B^{2}.\quad(15)
minL⊥=
zllvzhlvT
F2/B2.(15) 该方法的优化目标是:
min
L
=
L
c
+
λ
⊥
L
⊥
+
λ
l
l
v
L
l
l
v
+
λ
h
l
v
L
h
l
v
,
(
16
)
\min\mathcal{L}=\mathcal{L}_{c}+\lambda_{\perp}\mathcal{L}_{\perp}+\lambda_{llv}\mathcal{L}_{llv}+\lambda_{hlv}\mathcal{L}_{hlv},\quad(16)
minL=Lc+λ⊥L⊥+λllvLllv+λhlvLhlv,(16) 其中,
λ
⊥
λ_⊥
λ⊥、
λ
l
l
v
λ_{llv}
λllv 、
λ
h
l
v
λ_{hlv}
λhlv 为权衡参数
后面的实验结果也进一步的说明了采用正交约束让每个刺激的低层次和高层次标记表征尽可能不同的必要性:
我们对 NSD 数据集进行了消融研究,结果如表 3 所示。只应用模型引导而不应用正交约束或只应用正交约束而不应用模型引导时,模型性能都不理想。使用低级或高级特征进行正交约束引导时,模型性能略有提高,但与使用所有三种约束的模型性能相比仍有差距。这些结果证实了多模态模型引导以及对初级和高级标记表征进行正交约束的必要性。
五、实验结果
5.1 个人不太关注的实验结果(方向不一样)
表 1 列出了 HCP 数据集的结果。首先,我们的方法优于 SS-CNN 和 SS-ViT 这两种单主体解码方法。SS-ViT 和我们的方法具有相同的骨干模型,但我们的方法获得的指标明显优于 SS-ViT,这凸显了我们方法的高效数据聚合策略的优越性。SS-ViT 和我们的方法在不同对象上的比较见补充材料中的图 C5。其次,与其他多主体解码方法(MS-SMODELCNN、MS-SMODEL-ViT、MS-EMB 和 SRM)相比,我们的方法也具有很强的竞争力。尽管具有相同的训练数据和骨干模型,我们提出的方法在所有指标上都优于 MS-SMODEL-ViT。这表明,我们的方法中采用的特定受试者标记能很好地处理个体差异,优于 MS-SMODEL-ViT 中使用的多受试者数据的简单聚合。
我们还在 NSD 数据集上进一步验证了该方法的有效性,在该数据集中,每个受试者的训练集中的刺激物都是完全排他的。表 2 列出的结果表明,我们的方法优于单主体方法、SS-MLP 和 SS-ViT。SS-ViT 和我们的方法在不同主体上的比较见补充材料中的图 C6。在数据量和骨干模型相同的情况下,聚合方法远远不如我们的方法。这主要是因为在所有受试者中共享所有模型参数的 MS-SMODEL 方法很难处理受试者之间的变异性和刺激分布的差异。虽然 MS-EMB 的性能比聚合方法好,但仍不如我们提出的方法。
5.2 个人比较关注的实验结果(对我的方向有某些参考意义)
我们在 CLIP-MUSED 模型的最后一层可视化低级和高级token的注意力图谱。图 4 展示了 HCP 数据集左半球的可视化结果,我们随机选取了四个受试者进行展示。图 4(a) 显示了低级token的注意力图谱,这些token主要集中在枕叶。图 4(b) 显示的是高级token的注意图,这些token更分散地分布在大脑皮层中,额叶、顶叶和颞叶的注意力较强。这些结果符合我们的预期,因为以往的研究表明,低级视觉特征的处理主要发生在视觉皮层,而高级语义特征的处理则涉及颞叶、顶叶和额叶(De Benedictis 等人,2014 年;Mitchell 等人,2008 年)。图 4© 显示了 MS-EMB 的嵌入标记注意图。与 CLIP-MUSED 的标记注意图相比,MS-EMB 的标记注意图平滑地分布在整个皮层表面,因此很难理解标记中编码的是哪些信息。
表 E6 列出了神经表征学习在不同 DNN 表征空间的视觉刺激拓扑关系指导下的模型性能。CLIPImg/CLIP-Text指的是在学习高级标记时,利用 CLIP 图像/文本编码器提取的高级图像/文本特征,而不是多模态特征。总之,表 E6 中描述的结果表明,与基线模型(ViT 和 AlexNet)相比,从 CLIP 提取的特征表现出更优越的引导效果。值得注意的是,文本信息提供了对视觉刺激更丰富的语义理解,将其与图像特征整合在一起可以提高模型在引导神经表征学习方面的性能。
如图 F7 所示,我们展示了两个数据集上低级和高级词块的主体间表征相似矩阵(RSM)的可视化。值得注意的是,与 NSD 数据集相比,HCP 数据集上主体间标记的相似度更高。这可能是由于在 HCP 数据集中,所有受试者都观看了相同的刺激物,而且刺激物在受试者之间的分布是均匀的,而在 NSD 数据集的训练集中,不同受试者观看的刺激物是相互排斥的。显而易见,即使观看相同的刺激,不同受试者处理刺激信息的模式也会略有不同,而当看到不同的刺激时,这些差异会进一步扩大。在 CLIP-MUSED 中为每个受试者学习的标记可以对这些受试者间的差异进行编码,从而降低不同受试者在 NSD 数据集上不同刺激下的标记相似度。
六、未来的研究工作
未来,我们计划将我们的方法扩展到视觉刺激重构(Chen 等人,2022;Lin 等人,2022;Takagi & Nishimoto,2022),这是一项比语义分类更具挑战性的任务。此外,如果我们能设计出针对新研究对象学习特定研究对象标记的策略,并相应地调整模型,那么我们的方法就能应用于新的研究对象。由于实验工作量很大,我们计划在未来开展这项工作。