[TPAMI 2025]A Survey on fMRI-based Brain Decoding for Reconstructing Multimodal Stimuli

论文网址:2503.15978

github页面:LpyNow/BrainDecodingImage

英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向于笔记,谨慎食用

目录

1. 心得

2. 论文逐段精读

2.1. Abstract

2.2. Introduction

2.2.1. Technological Advancements

2.2.2. Scope of the Survey

2.2.3. Realted Previous Reviews and Surveys

2.2.4. Article Structure

2.2.5. Contributions

2.3. Datasets

2.3.1. Neuroimaging Technologies

2.3.2. Region of interest

2.3.3. Image Stimuli Datasets

2.3.4. Sound Stimuli Datasets

2.3.5. Video Stimuli Datasets

2.4. Method

2.4.1. End-to-End

2.4.2. Large-Scale Pre-Trained Generation

2.4.3. Encoder-Alignment-Based

2.4.4. Large Language Model-Centric Models

2.4.5. Hybrid Models

2.5. Evaluation Metrics

2.5.1. Quick Overview

2.5.2. Definition Details

2.6. Experiments

2.6.1. Qualitative Results

2.6.2. Quantitative Results

2.7. Future Derections

2.7.1. High-Resolution Temporal Dynamics Modeling

2.7.2. Personalized Brain Decoding Frameworks

2.7.3. Multimodal Neural-Semantic Alignment

2.7.4. Real-Time Adaptive Decoding

2.7.5. Ethical and Security Considerations

2.7.6. Clinical Translation and Real-World Validation

2.8. Conclusion

1. 心得

(1)arXiv的综述,看上去用了TPAMI的模板,但没有在TPAMI上找到。是正在投吗?祝好运,这样我也不用修改标题了

(2)看着我读的一篇一篇arXiv都变成顶会略微心酸(ヽ(*。>Д<)o゜我也想要给我给我给我

(3)我发现写优快云两年来从小白变成喷子再变成平静的类型了,感觉现在真的很友善(人人都容易犯错!每一篇论文都非常不容易!

(4)看得出作者很有认真在统计了...真的很长

2. 论文逐段精读

2.1. Abstract

        ①Challenge of fMRI decoding: low temporal resolution and inherent signal noise

2.2. Introduction

        ①The stimuli and brain activations are not one-to-one correspondence

        ②Understanding how brain encodes and decodes may help to cure Alzheimer’s disease (AD)(虽然作者原话写的帮助AD患者恢复身体/恢复记忆。作者没有在这句话末尾引用,这!!这会不会不太可能!!尊都假嘟啊有待考究)

olfactory  n. 嗅觉;鼻;嗅觉器官 adj. 嗅觉的

2.2.1. Technological Advancements

        ①⭐The low temporal resolution of fMRI limits the ability of instantaneous signal capturing(是这样但可能现在EEG就是噪声太高了解码效果不好?不一定,看看后续分析)

        ②The authors focus on fMRI in this work (compared with other device (most works focus on fMRI~

        ③Current brain decoding pipeline:

instantaneous  adj.瞬间的;立即的;立刻的

2.2.2. Scope of the Survey

        ①Only include articles with significant influence in the past three years

seminal adj. 影响深远的;(对以后的发展)有重大意义的

2.2.3. Realted Previous Reviews and Surveys

        ①Relevant previous surveys:

First-of-Its-Kind  adj.史无前例

2.2.4. Article Structure

        ①The schematic of content:

2.2.5. Contributions

        不赘述

2.3. Datasets

        ①Types of stimuli: image, sound, and video

        ②Types of tasks: Image-to-Image (I2I), Image-to-Text (I2T), Speech-to-Speech (S2S), Speech-to-Text (S2T), Video-to-Video (V2V), and Video-toText (V2T)

        ③⭐Classifying current datasets:

(ROI咋回事,NSD不是给了一堆不同的ROI模板吗)

2.3.1. Neuroimaging Technologies

        ①Introduced pros and cons of EEG, MEG, NIRS, and fMRI(我大概都知道这些就没有记录了,不知道的宝宝可以看看原文,类似就是fMRI是什么设备怎么采集的然后空间分辨率高但时间分辨率低这种~)

2.3.2. Region of interest

        ①Early visual cortex (EVC): 

  • V1(初级视觉皮层)区域是大脑中接收和处理视觉信息的第一个区域,主要处理亮度、方向和对比度等基本视觉特征。
  • V2(次级视觉皮层)区域与V1相邻,是视觉信息处理的下一步。它可以处理稍微复杂一些的视觉特征,如物体的纹理和深度,有助于大脑更好地理解物体的边缘和形状。
  • V3(第三视觉皮层)主要参与物体的形状和空间排列,与深度和运动感知有关,使其能够处理与物体位置和形状变化相关的信息。
  • V4主要处理颜色和形状感知,在颜色处理和轮廓识别中起着至关重要的作用,这是物体识别的关键。
  • V3A和V3B:这两个区域扩展了V3区域的功能,进一步涉及运动和深度感知,其中V3A在感知3D形状和空间布局方面尤为重要。

(这些很医学我就直接复制了我也不方便总结)

        ②higher visual cortex: 

  • 枕外侧复合体(LOC)主要处理物体识别,特别是处理物体的形状、大小和结构。LOC对视觉对象的整体感知高度敏感,是对象解码任务中的关键区域。
  • 梭状脸区域(FFA)专门用于面部识别,位于颞叶下部。FFA是大脑中负责面部感知的特定区域,对于识别面部特征至关重要,通常用于重建面部图像。
  • 海马旁位置区(PPA)主要负责场景识别,特别是感知环境和空间布局。它在区分室内和室外环境方面起着至关重要的作用,在场景重建任务中也很重要。
  • 后脾皮质(RSC)参与空间导航和场景记忆,对长期空间记忆和位置感知至关重要。
  • 枕骨区域(OPA)主要处理与视觉场景的空间布局相关的信息,特别是在导航任务中。

        ③Motion visual areas:

  • 中间时间区域(MT,V5)是运动处理的关键区域,负责检测和处理视野中的运动物体。MT对运动感知至关重要,当外部刺激涉及运动时,MT会对视觉流、速度和运动方向做出反应。
  • 外侧顶叶内区(LIP)与视觉注意力和眼球运动控制有关,负责整合空间信息和视觉目标的位置。

        ④Auditory-Related Areas:

  • 初级听觉皮层(A1)处理声音的基本特征。
  • 侧带区(LBelt)和副带区(PBelt)属于次级听觉皮层,参与处理复杂的听觉信息,如声音识别和定位。
  • 早期听觉皮层(EAC)和前听觉皮层(AAC)处理早期和高级听觉信息,参与声音分类和识别等复杂任务。
  • A4和A5是涉及更高级声音信息分析的高级听觉处理区域。
  • 岛后皮层(RI)与空间声音感知有关,可以处理声音的空间定位。

        ⑤Multimodal Perception Areas:

  • 颞顶枕交界处(TPOJ)是一个多感官整合区域,负责视觉、听觉和触觉信息的综合处理。TPOJ在大脑解码的跨模态任务中起着至关重要的作用。
  • 前运动皮层(PMC)主要与行动计划和执行有关,它在多模式感知和运动协调中起着重要作用。

        ⑥Face Recognition-Related Areas:

  • 枕面部区域(OFA)处理面部特征的低级处理,特别是面部特征的初始识别。OFA与FFA一起在面部信息解码过程中提供基本信息

        ⑦Language and Motion-Related Areas:

  • 布罗卡区是大脑中负责语言生成和处理的区域位于左半球。
  • 高级运动前腹区(sPMv)与运动计划、动作生成和语言有关。

        ⑧Other Visual and Sensory Areas:

  • 颞顶连接(TPJ)涉及社会认知、注意力控制和多感官整合,特别是视觉和听觉信息的融合。
  • 侧眼场(PEF)负责控制眼球运动和视觉注意力。
  • Parietal Lobe(PL)主要负责感觉信息、空间感知和运动协调的整合。
  • 额叶(FL)与各种高级认知功能密切相关。

        ⑨Corresponding area:

(我感觉这个图放在这些文字前面会更好?不然读者看了一堆文字都疲惫了突然再出来个图)

contour  n. 轮廓;[气象]等高线;[数]周线;电路;概要

holistic  adj. 整体的,全面的;功能整体性的

2.3.3. Image Stimuli Datasets

        ①Introduction of datasets:

  • 二元对比模式(BCP)数据集是使用低分辨率合成图像的早期数据集,通过二元对比图案生成。它提供了来自四名受试者初级视觉皮层(V1、V2和V3)的fMRI信息,使其适用于I2I重建任务。
  • 手写数字(HWD)数据集包括从MNIST中选择的2106个手写灰度数字样本。它主要探索数字识别过程中的大脑活动,并测试一名受试者的fMRI信息,支持I2I任务。
  • 手写字符(BRAINS)数据集由720个手写字符样本组成,这些样本是从手写字符识别数据集中选择的作为刺激。它通过测试三名受试者的初级视觉皮层(V1)来帮助完成I2I重建任务。
  • BCP、HWD和BRAINS数据集被认为是相对早期的数据集。由于当时的技术和硬件条件的限制,使用的刺激是简单的字符或图案,图像的分辨率较低。
  • BOLD5000数据集是一个大规模的fMRI神经成像数据集,包含来自SUN、COCO和ImageNet数据集的4916幅图像的大脑活动数据。它记录了4名受试者在观察图像刺激时的fMRI反应,有四种特定的ROI:PPA、RSC、OPA和EVC。该数据集包括各种日常场景和对象,使其适用于I2I和I2T任务。
  • 自然场景数据集(NSD)是迄今为止最大、使用最广泛的fMRI数据集,捕获了8名受试者对图像刺激的大脑活动数据。目前,受试者1、2、5和7已经完成了完整的数据收集,使他们的数据成为大多数研究的主要焦点,我们的调查也集中在这四个受试者身上。NSD使用来自COCO数据集的图像作为刺激,每个受试者观看9000个重复图像和1000个独特图像,在扩展的测试过程中总共进行70566次演示。这种广泛的设置提供了稳定和一致的实验数据。NSD数据集包括几个与视觉处理和物体识别相关的视觉皮层ROI,主要是:V1、V2、V3、V4、LOC、FFA和PPA。这些数据广泛适用于I2I和I2T任务。
  • 通用对象解码(GOD)数据集是一个基于fMRI的数据集,记录了五名受试者在查看来自ImageNet数据集的1250张图像时的大脑活动。GOD数据集还提供覆盖V1至V4、LOC、FFA和PPA等区域的ROI数据,支持图像到图像(I2I)和图像到文本(I2T)解码任务。
  • 深度图像重建(DIR)数据集记录了三名受试者在查看50个人工形状和字母时的大脑活动。它将ROI标识为V1至V4、LOC、FFA和PPA。Vim-1[43]数据集是一个早期的fMRI数据集,共包含1870个样本,其中包括1750个训练样本和120个来自商业数字图书馆和伯克利分割数据集的测试样本。对两名受试者进行了测试,该数据集中定义的ROI区域为V1至V4。在数据采集过程中,严格控制图像的呈现时间,以确保高质量的数据采集。
  • CelebrityFace数据集相对较新,包括108个样本,其中88个训练样本和20个测试样本来自CelebriA数据集,这是一个包含各种名人面孔的大型面部图像数据集。与自然图像相比,面部图像的丰富细节在图像重建过程中要求更高的精度。CelebrityFace数据集提供了来自四个受试者的数据,涉及四种与面部处理相关的ROI:TL、OL、PL和FL。DIR、Vim-1和CelebrityFaces数据集都适用于I2I任务。
  • 人类连接组项目(HCP)数据集可广泛应用于神经科学研究,包括大脑功能区的定位、连接组分析以及不同子任务中神经活动模式的研究
  • 多尺度连接性(MSC)数据集相对较小,提供了10名受试者的fMRI信息,并专注于分析小样本中大脑的多尺度连接性。在最近的研究中,HCP的MSC数据集经常被用于模型预训练。此外,EEG-VOA[50]数据集基于EEG数据,使用ImageNet的2000幅图像作为外部视觉刺激。它提供来自六名受试者的128个通道的高分辨率EEG信号,使研究人员能够捕捉到受试者处理不同视觉对象时注意力的变化。尽管EEG数据集通常不直接指定ROI区域,但可以通过分析特定的频带和通道来推断与视觉相关的大脑区域。通过解码EEG信号,研究人员可以重建受试者对视觉刺激的反应,使其非常适合I2I任务。

2.3.4. Sound Stimuli Datasets

        ①Introduction of datasets:

  • 脑声音识别(BSR)数据集基于fMRI数据,使用VGGSound数据集中的1250个声音片段作为刺激。它提供来自五名受试者多个感兴趣区域(ROI)的fMRI信息,包括初级和次级听觉皮层,如A1、LBelt、Pbelt、A4和A5。BSR数据集对于理解大脑如何处理声音至关重要,主要用于通过fMRI解码重建受试者面临的听觉刺激,从而促进S2S任务。
  • Narratives数据集包含由研究人员撰写的27个故事,向345名受试者讲述,同时记录他们的大脑fMRI活动。这些故事涵盖了各种类型,旨在捕捉受试者在理解不同故事内容时的大脑活动模式。该数据集包括A1、Mbelt、LBelt和RI等与语言理解密切相关的ROI。鉴于刺激是定制的故事文本,叙事数据集适用于S2T任务。
  • 音频信号的端到端时间分类(ETCAS)数据集基于EEG数据,使用TIMIT数据集中的50个音频片段作为刺激。它测试了50名受试者,通过24个通道收集高分辨率的脑电图信号。ETCAS数据集主要适用于S2S任务。
  • MusicGener数据集包括540个用作刺激的音乐片段,在三个受试者身上进行了测试,其中480个片段被指定为训练集,60个片段作为测试集,代表了各种音乐风格。
  • MusicAffect数据集对21名受试者进行了合成或古典音乐片段的评估,记录了他们在听音乐时的大脑功能磁共振成像。
  • GTZan数据集选择了多种类型的540个音乐片段作为刺激,通过记录五名受试者的fMRI来分析大脑活动。MusicGener、MusicAffect和GTZan数据集都适用于S2S任务。
  • Story数据集使用10个故事作为刺激,记录了149名受试者在此过程中的fMRI信息。它包括多个ROI,如EAC、AAC、TPOJ和PMC,使其适用于S2S任务。

2.3.5. Video Stimuli Datasets

        ①Introduction of these datasets:

  • Cam CAN数据集利用多个固定长度的电影片段作为刺激,捕捉了656名参与者在观看电影片段时的大脑活动。
  • DNV数据集包括来自YouTube的视频,包括374个训练片段和598个测试片段,共972个片段。该数据集通过捕获三名参与者的fMRI数据来分析大脑反应,重点关注视频观看过程中的ROI区域,如V1、V2、V3、V4、LO、MT、FFA、PPA、LIP、TPJ和PEF。
  • VER数据集的刺激来自Apple Quick Time画廊和YouTube,其中包含12600个视频片段,涵盖了各种背景和内容。该数据集还记录了三名参与者的fMRI信息,重点关注几个ROI,包括V1、V2、V3、V3A和V3B。
  • STNS数据集利用《神秘博士》中的30集作为刺激,在观看视频时捕捉单个参与者的fMRI数据。该数据集中提供的ROI包括V1、V2、V3、MT、AC、FFA、LOC和OFA。
  • CLSR数据集与众不同,因为它将无声视频片段与来自“蛾广播时间”和“现代爱情”的故事相结合。“它记录了三名参与者的大脑活动,重点关注AC、Broca和sPMv等ROI。
  • NNDB数据集使用10部全长电影作为刺激,其中单个片段相对较长,捕获了86名参与者的大脑数据。这些电影的持续时间延长给模型设计带来了额外的挑战。

上述所有视频数据集都适用于V2V任务,而CLSR数据集也可用于S2T任务。

2.4. Method

        ①Schematic of different methods:

        ②Models of different method:

        ③Details of different models:

2.4.1. End-to-End

        ①Convenient, but struggles in complex feature extraction and is limited by scarce data

        ②分别介绍了简单的CNN,RNN,GAN,Tranformer怎么把输入脑信号映射到输出刺激预测,以及损失。(就是最简单的公式,不赘述

2.4.2. Large-Scale Pre-Trained Generation

        ①介绍了这个领域的现有预训练模型,如CLIP,ViLBERT/VisualBERT,ALIGN,UNITER

2.4.3. Encoder-Alignment-Based

        ①这个就不是直接输入信号变成输出,而是多个模态之间要先对齐一下。也列举了很简单的模型

2.4.4. Large Language Model-Centric Models

        ①Usage: Instruction-Tuning and Multi-Stage Alignment

2.4.5. Hybrid Models

        ①就是混合...可以实现不同任务等等的

2.5. Evaluation Metrics

2.5.1. Quick Overview

        ①Low-Level Evaluation Metrics: PixCorr, SSIM, AlexNet, and AlexNet.

        ②High-Level Evaluation Metrics: Incep, CLIP, EffNet-B and SwAV

2.5.2. Definition Details

        ①讲了上面那些指标的公式,不用很在意啦如果感兴趣可以去原文看

2.6. Experiments

2.6.1. Qualitative Results

        ①Stimuli reconstruction example:

2.6.2. Quantitative Results

        ①Quantitative results of existing models:

此外,作者还介绍了一些别的细节的指标也可以纳入使用。可以码住,但不用强行背

2.7. Future Derections

2.7.1. High-Resolution Temporal Dynamics Modeling

        ①Temporal dynamics reconstruction?(其实这个东西很难衡量好和不好诶,只能纯靠性能,没有什么超分的人眼评判了

        ②Finding the mapping from low-resolution to high resolution

2.7.2. Personalized Brain Decoding Frameworks

        ①People have different perception, thus, need to design personalized model/method for each subject

2.7.3. Multimodal Neural-Semantic Alignment

        ①How brain processes visual information: ottom-up perceptual signals (e.g., raw visual data from sensory organs like the eyes) and top-down semantic predictions (e.g., inferences based on prior experiences, knowledge, and context)

2.7.4. Real-Time Adaptive Decoding

        ①Potential improvement: efficiency

        ②Improve the practicality: online learning

2.7.5. Ethical and Security Considerations

        ①Limitation: specific subjects group

2.7.6. Clinical Translation and Real-World Validation

        ①要临床应用~

2.8. Conclusion

        ~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值