
本文介绍了一种通过非侵入性脑记录(MEG/EEG)解码语音感知的模型,利用对比学习和自监督预训练语音模型(wav2vec 2.0),实现对自然语音的高效解码。
代码链接:github.com/facebookresearch/brainmagick
一、方法与模型架构
模型主要由 “大脑模块” 和 “语音模块” 组成。通过对比学习(contrastive learning)来对齐两者的表示,使得模型能够从非侵入性脑记录中解码出感知语音的自我监督表示。
1、大脑模块
输入:原始 MEG/EEG 时间序列数据以及对应参与者的独热编码。(参与者的独热编码用于告知模型当前输入的脑信号属于哪一个参与者,以便后续模型通过参与者特定层调用对应的个体参数)输出:与语音表示对齐的潜在大脑表征。
(1)空间注意力层:
目标:动态学习每个传感器的权重,突出对语音解码最相关的脑区信号,抑制噪声或无关区域的干扰。适应不同数据集的传感器配置(如 MEG 的 273 通道 vs. EEG 的 60 通道),增强模型的跨数据集泛化能力。(注:传感器是指分布在头皮用于记录脑电活动的仪器,不同传感器对应不同脑区的信号)
用 MNE-Python 库的find_layout函数,将三维传感器位置投影到二维平面,保留传感器间的相对距离,再进行坐标归一化。每个输出通道的注意力权重通过傅里叶基函数建模,捕捉传感器位置的周期性空间模式(如脑区活动的空间频率特征)。

最低0.47元/天 解锁文章
636

被折叠的 条评论
为什么被折叠?



