论文网址:2503.15978
github页面:LpyNow/BrainDecodingImage
英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向于笔记,谨慎食用
目录
2.2.1. Technological Advancements
2.2.3. Realted Previous Reviews and Surveys
2.3.1. Neuroimaging Technologies
2.4.2. Large-Scale Pre-Trained Generation
2.4.3. Encoder-Alignment-Based
2.4.4. Large Language Model-Centric Models
2.7.1. High-Resolution Temporal Dynamics Modeling
2.7.2. Personalized Brain Decoding Frameworks
2.7.3. Multimodal Neural-Semantic Alignment
2.7.4. Real-Time Adaptive Decoding
2.7.5. Ethical and Security Considerations
2.7.6. Clinical Translation and Real-World Validation
1. 心得
(1)arXiv的综述,看上去用了TPAMI的模板,但没有在TPAMI上找到。是正在投吗?祝好运,这样我也不用修改标题了
(2)看着我读的一篇一篇arXiv都变成顶会略微心酸(ヽ(*。>Д<)o゜我也想要给我给我给我
(3)我发现写优快云两年来从小白变成喷子再变成平静的类型了,感觉现在真的很友善(人人都容易犯错!每一篇论文都非常不容易!
(4)看得出作者很有认真在统计了...真的很长
2. 论文逐段精读
2.1. Abstract
①Challenge of fMRI decoding: low temporal resolution and inherent signal noise
2.2. Introduction
①The stimuli and brain activations are not one-to-one correspondence
②Understanding how brain encodes and decodes may help to cure Alzheimer’s disease (AD)(虽然作者原话写的帮助AD患者恢复身体/恢复记忆。作者没有在这句话末尾引用,这!!这会不会不太可能!!尊都假嘟啊有待考究)
olfactory n. 嗅觉;鼻;嗅觉器官 adj. 嗅觉的
2.2.1. Technological Advancements
①⭐The low temporal resolution of fMRI limits the ability of instantaneous signal capturing(是这样但可能现在EEG就是噪声太高了解码效果不好?不一定,看看后续分析)
②The authors focus on fMRI in this work (compared with other device (most works focus on fMRI~
③Current brain decoding pipeline:
instantaneous adj.瞬间的;立即的;立刻的
2.2.2. Scope of the Survey
①Only include articles with significant influence in the past three years
seminal adj. 影响深远的;(对以后的发展)有重大意义的
2.2.3. Realted Previous Reviews and Surveys
①Relevant previous surveys:
First-of-Its-Kind adj.史无前例
2.2.4. Article Structure
①The schematic of content:
2.2.5. Contributions
不赘述
2.3. Datasets
①Types of stimuli: image, sound, and video
②Types of tasks: Image-to-Image (I2I), Image-to-Text (I2T), Speech-to-Speech (S2S), Speech-to-Text (S2T), Video-to-Video (V2V), and Video-toText (V2T)
③⭐Classifying current datasets:
(ROI咋回事,NSD不是给了一堆不同的ROI模板吗)
2.3.1. Neuroimaging Technologies
①Introduced pros and cons of EEG, MEG, NIRS, and fMRI(我大概都知道这些就没有记录了,不知道的宝宝可以看看原文,类似就是fMRI是什么设备怎么采集的然后空间分辨率高但时间分辨率低这种~)
2.3.2. Region of interest
①Early visual cortex (EVC):
- V1(初级视觉皮层)区域是大脑中接收和处理视觉信息的第一个区域,主要处理亮度、方向和对比度等基本视觉特征。
- V2(次级视觉皮层)区域与V1相邻,是视觉信息处理的下一步。它可以处理稍微复杂一些的视觉特征,如物体的纹理和深度,有助于大脑更好地理解物体的边缘和形状。
- V3(第三视觉皮层)主要参与物体的形状和空间排列,与深度和运动感知有关,使其能够处理与物体位置和形状变化相关的信息。
- V4主要处理颜色和形状感知,在颜色处理和轮廓识别中起着至关重要的作用,这是物体识别的关键。
- V3A和V3B:这两个区域扩展了V3区域的功能,进一步涉及运动和深度感知,其中V3A在感知3D形状和空间布局方面尤为重要。
(这些很医学我就直接复制了我也不方便总结)
②higher visual cortex:
- 枕外侧复合体(LOC)主要处理物体识别,特别是处理物体的形状、大小和结构。LOC对视觉对象的整体感知高度敏感,是对象解码任务中的关键区域。
- 梭状脸区域(FFA)专门用于面部识别,位于颞叶下部。FFA是大脑中负责面部感知的特定区域,对于识别面部特征至关重要,通常用于重建面部图像。
- 海马旁位置区(PPA)主要负责场景识别,特别是感知环境和空间布局。它在区分室内和室外环境方面起着至关重要的作用,在场景重建任务中也很重要。
- 后脾皮质(RSC)参与空间导航和场景记忆,对长期空间记忆和位置感知至关重要。
- 枕骨区域(OPA)主要处理与视觉场景的空间布局相关的信息,特别是在导航任务中。
③Motion visual areas:
- 中间时间区域(MT,V5)是运动处理的关键区域,负责检测和处理视野中的运动物体。MT对运动感知至关重要,当外部刺激涉及运动时,MT会对视觉流、速度和运动方向做出反应。
- 外侧顶叶内区(LIP)与视觉注意力和眼球运动控制有关,负责整合空间信息和视觉目标的位置。
④Auditory-Related Areas:
- 初级听觉皮层(A1)处理声音的基本特征。
- 侧带区(LBelt)和副带区(PBelt)属于次级听觉皮层,参与处理复杂的听觉信息,如声音识别和定位。
- 早期听觉皮层(EAC)和前听觉皮层(AAC)处理早期和高级听觉信息,参与声音分类和识别等复杂任务。
- A4和A5是涉及更高级声音信息分析的高级听觉处理区域。
- 岛后皮层(RI)与空间声音感知有关,可以处理声音的空间定位。
⑤Multimodal Perception Areas:
- 颞顶枕交界处(TPOJ)是一个多感官整合区域,负责视觉、听觉和触觉信息的综合处理。TPOJ在大脑解码的跨模态任务中起着至关重要的作用。
- 前运动皮层(PMC)主要与行动计划和执行有关,它在多模式感知和运动协调中起着重要作用。
⑥Face Recognition-Related Areas:
- 枕面部区域(OFA)处理面部特征的低级处理,特别是面部特征的初始识别。OFA与FFA一起在面部信息解码过程中提供基本信息
⑦Language and Motion-Related Areas:
- 布罗卡区是大脑中负责语言生成和处理的区域位于左半球。
- 高级运动前腹区(sPMv)与运动计划、动作生成和语言有关。
⑧Other Visual and Sensory Areas:
- 颞顶连接(TPJ)涉及社会认知、注意力控制和多感官整合,特别是视觉和听觉信息的融合。
- 侧眼场(PEF)负责控制眼球运动和视觉注意力。
- Parietal Lobe(PL)主要负责感觉信息、空间感知和运动协调的整合。
- 额叶(FL)与各种高级认知功能密切相关。
⑨Corresponding area:
(我感觉这个图放在这些文字前面会更好?不然读者看了一堆文字都疲惫了突然再出来个图)
contour n. 轮廓;[气象]等高线;[数]周线;电路;概要
holistic adj. 整体的,全面的;功能整体性的
2.3.3. Image Stimuli Datasets
①Introduction of datasets:
- 二元对比模式(BCP)数据集是使用低分辨率合成图像的早期数据集,通过二元对比图案生成。它提供了来自四名受试者初级视觉皮层(V1、V2和V3)的fMRI信息,使其适用于I2I重建任务。
- 手写数字(HWD)数据集包括从MNIST中选择的2106个手写灰度数字样本。它主要探索数字识别过程中的大脑活动,并测试一名受试者的fMRI信息,支持I2I任务。
- 手写字符(BRAINS)数据集由720个手写字符样本组成,这些样本是从手写字符识别数据集中选择的作为刺激。它通过测试三名受试者的初级视觉皮层(V1)来帮助完成I2I重建任务。
- BCP、HWD和BRAINS数据集被认为是相对早期的数据集。由于当时的技术和硬件条件的限制,使用的刺激是简单的字符或图案,图像的分辨率较低。
- BOLD5000数据集是一个大规模的fMRI神经成像数据集,包含来自SUN、COCO和ImageNet数据集的4916幅图像的大脑活动数据。它记录了4名受试者在观察图像刺激时的fMRI反应,有四种特定的ROI:PPA、RSC、OPA和EVC。该数据集包括各种日常场景和对象,使其适用于I2I和I2T任务。
- 自然场景数据集(NSD)是迄今为止最大、使用最广泛的fMRI数据集,捕获了8名受试者对图像刺激的大脑活动数据。目前,受试者1、2、5和7已经完成了完整的数据收集,使他们的数据成为大多数研究的主要焦点,我们的调查也集中在这四个受试者身上。NSD使用来自COCO数据集的图像作为刺激,每个受试者观看9000个重复图像和1000个独特图像,在扩展的测试过程中总共进行70566次演示。这种广泛的设置提供了稳定和一致的实验数据。NSD数据集包括几个与视觉处理和物体识别相关的视觉皮层ROI,主要是:V1、V2、V3、V4、LOC、FFA和PPA。这些数据广泛适用于I2I和I2T任务。
- 通用对象解码(GOD)数据集是一个基于fMRI的数据集,记录了五名受试者在查看来自ImageNet数据集的1250张图像时的大脑活动。GOD数据集还提供覆盖V1至V4、LOC、FFA和PPA等区域的ROI数据,支持图像到图像(I2I)和图像到文本(I2T)解码任务。
- 深度图像重建(DIR)数据集记录了三名受试者在查看50个人工形状和字母时的大脑活动。它将ROI标识为V1至V4、LOC、FFA和PPA。Vim-1[43]数据集是一个早期的fMRI数据集,共包含1870个样本,其中包括1750个训练样本和120个来自商业数字图书馆和伯克利分割数据集的测试样本。对两名受试者进行了测试,该数据集中定义的ROI区域为V1至V4。在数据采集过程中,严格控制图像的呈现时间,以确保高质量的数据采集。
- CelebrityFace数据集相对较新,包括108个样本,其中88个训练样本和20个测试样本来自CelebriA数据集,这是一个包含各种名人面孔的大型面部图像数据集。与自然图像相比,面部图像的丰富细节在图像重建过程中要求更高的精度。CelebrityFace数据集提供了来自四个受试者的数据,涉及四种与面部处理相关的ROI:TL、OL、PL和FL。DIR、Vim-1和CelebrityFaces数据集都适用于I2I任务。
- 人类连接组项目(HCP)数据集可广泛应用于神经科学研究,包括大脑功能区的定位、连接组分析以及不同子任务中神经活动模式的研究
- 多尺度连接性(MSC)数据集相对较小,提供了10名受试者的fMRI信息,并专注于分析小样本中大脑的多尺度连接性。在最近的研究中,HCP的MSC数据集经常被用于模型预训练。此外,EEG-VOA[50]数据集基于EEG数据,使用ImageNet的2000幅图像作为外部视觉刺激。它提供来自六名受试者的128个通道的高分辨率EEG信号,使研究人员能够捕捉到受试者处理不同视觉对象时注意力的变化。尽管EEG数据集通常不直接指定ROI区域,但可以通过分析特定的频带和通道来推断与视觉相关的大脑区域。通过解码EEG信号,研究人员可以重建受试者对视觉刺激的反应,使其非常适合I2I任务。
2.3.4. Sound Stimuli Datasets
①Introduction of datasets:
- 脑声音识别(BSR)数据集基于fMRI数据,使用VGGSound数据集中的1250个声音片段作为刺激。它提供来自五名受试者多个感兴趣区域(ROI)的fMRI信息,包括初级和次级听觉皮层,如A1、LBelt、Pbelt、A4和A5。BSR数据集对于理解大脑如何处理声音至关重要,主要用于通过fMRI解码重建受试者面临的听觉刺激,从而促进S2S任务。
- Narratives数据集包含由研究人员撰写的27个故事,向345名受试者讲述,同时记录他们的大脑fMRI活动。这些故事涵盖了各种类型,旨在捕捉受试者在理解不同故事内容时的大脑活动模式。该数据集包括A1、Mbelt、LBelt和RI等与语言理解密切相关的ROI。鉴于刺激是定制的故事文本,叙事数据集适用于S2T任务。
- 音频信号的端到端时间分类(ETCAS)数据集基于EEG数据,使用TIMIT数据集中的50个音频片段作为刺激。它测试了50名受试者,通过24个通道收集高分辨率的脑电图信号。ETCAS数据集主要适用于S2S任务。
- MusicGener数据集包括540个用作刺激的音乐片段,在三个受试者身上进行了测试,其中480个片段被指定为训练集,60个片段作为测试集,代表了各种音乐风格。
- MusicAffect数据集对21名受试者进行了合成或古典音乐片段的评估,记录了他们在听音乐时的大脑功能磁共振成像。
- GTZan数据集选择了多种类型的540个音乐片段作为刺激,通过记录五名受试者的fMRI来分析大脑活动。MusicGener、MusicAffect和GTZan数据集都适用于S2S任务。
- Story数据集使用10个故事作为刺激,记录了149名受试者在此过程中的fMRI信息。它包括多个ROI,如EAC、AAC、TPOJ和PMC,使其适用于S2S任务。
2.3.5. Video Stimuli Datasets
①Introduction of these datasets:
- Cam CAN数据集利用多个固定长度的电影片段作为刺激,捕捉了656名参与者在观看电影片段时的大脑活动。
- DNV数据集包括来自YouTube的视频,包括374个训练片段和598个测试片段,共972个片段。该数据集通过捕获三名参与者的fMRI数据来分析大脑反应,重点关注视频观看过程中的ROI区域,如V1、V2、V3、V4、LO、MT、FFA、PPA、LIP、TPJ和PEF。
- VER数据集的刺激来自Apple Quick Time画廊和YouTube,其中包含12600个视频片段,涵盖了各种背景和内容。该数据集还记录了三名参与者的fMRI信息,重点关注几个ROI,包括V1、V2、V3、V3A和V3B。
- STNS数据集利用《神秘博士》中的30集作为刺激,在观看视频时捕捉单个参与者的fMRI数据。该数据集中提供的ROI包括V1、V2、V3、MT、AC、FFA、LOC和OFA。
- CLSR数据集与众不同,因为它将无声视频片段与来自“蛾广播时间”和“现代爱情”的故事相结合。“它记录了三名参与者的大脑活动,重点关注AC、Broca和sPMv等ROI。
- NNDB数据集使用10部全长电影作为刺激,其中单个片段相对较长,捕获了86名参与者的大脑数据。这些电影的持续时间延长给模型设计带来了额外的挑战。
上述所有视频数据集都适用于V2V任务,而CLSR数据集也可用于S2T任务。
2.4. Method
①Schematic of different methods:
②Models of different method:
③Details of different models:
2.4.1. End-to-End
①Convenient, but struggles in complex feature extraction and is limited by scarce data
②分别介绍了简单的CNN,RNN,GAN,Tranformer怎么把输入脑信号映射到输出刺激预测,以及损失。(就是最简单的公式,不赘述
2.4.2. Large-Scale Pre-Trained Generation
①介绍了这个领域的现有预训练模型,如CLIP,ViLBERT/VisualBERT,ALIGN,UNITER
2.4.3. Encoder-Alignment-Based
①这个就不是直接输入信号变成输出,而是多个模态之间要先对齐一下。也列举了很简单的模型
2.4.4. Large Language Model-Centric Models
①Usage: Instruction-Tuning and Multi-Stage Alignment
2.4.5. Hybrid Models
①就是混合...可以实现不同任务等等的
2.5. Evaluation Metrics
2.5.1. Quick Overview
①Low-Level Evaluation Metrics: PixCorr, SSIM, AlexNet, and AlexNet.
②High-Level Evaluation Metrics: Incep, CLIP, EffNet-B and SwAV
2.5.2. Definition Details
①讲了上面那些指标的公式,不用很在意啦如果感兴趣可以去原文看
2.6. Experiments
2.6.1. Qualitative Results
①Stimuli reconstruction example:
2.6.2. Quantitative Results
①Quantitative results of existing models:
此外,作者还介绍了一些别的细节的指标也可以纳入使用。可以码住,但不用强行背
2.7. Future Derections
2.7.1. High-Resolution Temporal Dynamics Modeling
①Temporal dynamics reconstruction?(其实这个东西很难衡量好和不好诶,只能纯靠性能,没有什么超分的人眼评判了
②Finding the mapping from low-resolution to high resolution
2.7.2. Personalized Brain Decoding Frameworks
①People have different perception, thus, need to design personalized model/method for each subject
2.7.3. Multimodal Neural-Semantic Alignment
①How brain processes visual information: ottom-up perceptual signals (e.g., raw visual data from sensory organs like the eyes) and top-down semantic predictions (e.g., inferences based on prior experiences, knowledge, and context)
2.7.4. Real-Time Adaptive Decoding
①Potential improvement: efficiency
②Improve the practicality: online learning
2.7.5. Ethical and Security Considerations
①Limitation: specific subjects group
2.7.6. Clinical Translation and Real-World Validation
①要临床应用~
2.8. Conclusion
~