MEGFormer:通过扩展语义表示增强大脑活动的语音解码

MEGFormer: Enhancing Speech Decoding from Brain Activity Through Extended Semantic Representations

摘要

背景: 近年来,多个研究利用非侵入性技术探索从大脑活动解码语音。然而,由于解码质量仍然不足,该任务在实际应用中仍面临挑战。一个有效的解码方案不仅可以促进脑机接口(BCI)的发展,为言语障碍患者提供沟通恢复的可能性,还能为理解大脑如何处理语音和声音提供基础性见解。

目的: 本研究旨在改进基于脑磁图(MEG)的语音解码方法,以提升解码准确性,并增强对感知语音的建模能力。

方法: 采用对比学习训练的自监督模型,以零样本(zero-shot)方式匹配MEG信号与音频片段。在此基础上,引入了一种基于CNN-Transformer的新型架构,以优化感知语音的解码能力。

结果: 通过所提出的改进方法,感知语音解码的准确率在公开数据集上由69%提升至83%,由67%提升至70%。值得注意的是,该方法在包含语义信息的较长语音片段上取得了最显著的性能提升,而对于短时的音素和声音片段提升相对较小。代码已公开,链接为 https://github.com/maryjis/MEGformer

方法

在这里插入图片描述
图 1. 所提出的模型经过训练,将从 wav2vec 模型(左侧)提取的相应音频表示映射到从 CNN Transformer(右侧)接收到的具有 CLIP 损失的大脑表示。
在这里插入图片描述
Fig. 2 展示了所提出的大脑活动编码器的示意图,该编码器由 CNN 编码器Transformer 编码器 组成。CNN 编码器由四个 带残差连接批量归一化(Batch Normalization)GLU 激活函数 的卷积模块构成,而 Transformer 编码器包括 多头自注意力(MHSA)MLP 模块

在该框架中,CNN 编码器以 脑磁图(MEG)数据 (X) 作为输入,数据尺寸为 (C x T),其中 (T) 表示时间点的数量,(C) 代表通道数。经过 CNN 编码器处理后,模型返回一个 潜在表示,其尺寸为 (S x T),其中 (S) 为输出特征维度,与 wav2vec 提取的特征尺寸一致。此外,受试者索引 (S) 进一步输入至 受试者层(Subject Layer) 进行处理。

实验结果

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小杨小杨1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值