迄今为止,从脑电波中解读人们想法的努力通常依赖于植入大脑皮层的电极。新研究使用头部外的设备来接收脑信号,使人工智能系统作为输入对象能够准确猜测他们正在输入的内容。
最新消息:研究人员介绍了 Brain2Qwerty,这是一种将脑电波转化为文本的非侵入性方法。此外,他们的工作揭示了大脑如何处理语言。该团队包括 Meta、巴黎科学与文学大学、阿道夫·德·罗斯柴尔德医院基金会、巴斯克认知、大脑和语言中心、巴斯克科学基金会、艾克斯-马赛大学和巴黎城市大学的人员。
收集脑电波数据:作者记录了 35 名输入西班牙语句子的健康参与者的大脑活动。参与者要么连接到脑电图 (EEG),它通过头皮上的电极记录大脑的电活动,要么连接到脑磁图 (MEG),它通过环绕头部但未连接的设备记录磁活动。15 名参与者使用了每种设备,5 名参与者同时使用了这两种设备。
• 参与者被要求阅读和记忆 5 到 8 个单词的短句。他们一次只看到一个单词。
• 短暂等待后,参与者被要求输入句子。他们看不到自己输入的内容。
• EEG 数据集包含大约 4,000 个句子和 146,000 个字符,而 MEG 数据集包含大约 5,100 个句子和 193,000 个字符。
将思想转化为文本:Brain2Qwerty 使用了一个由卷积神经网络、Transformer 和在西班牙语维基百科上预训练的 9 元字符级语言模型组成的系统。该系统根据用户大脑活动对用户输入的文本进行分类。作者在 MEG 和 EEG 数据上训练了不同的系统。
• 卷积神经网络将大脑活动分割成每个 500 毫秒的窗口。Transformer 将这些窗口作为输入,并生成可能的文本字符及其概率。这两个模型学会了联合预测字符。
• 给定最近预测的九个字符,预训练语言模型估计下一个字符的概率。
• 在推理时,作者使用了来自 Transformer 和语言模型的概率加权平均值。根据该平均值,他们计算出最可能的字符序列作为最终输出。
结果:作者的 MEG 模型实现了 32% 的字符错误率 (CER),比 EEG 竞争对手的准确率高得多。他们的 EEG 系统优于 EEGNet,后者是一种旨在处理已在作者的 EEG 数据上训练过的 EEG 数据的模型。它的 CER 为 67%,而 EEGNet 的 CER 为 78%。
新闻背后:几十年来,研究人员一直使用学习算法来解释大脑活动的各个方面,并取得了不同程度的成功。近年来,他们利用神经网络从植入的电极生成文本和语音,生成人们在 fMRI 中看到的图像,并让人们能够使用 EEG 信号控制机器人。
重要性:在解释脑信号的研究中,配备手术植入物的受试者通常提供最高质量的脑信号。fMRI 扫描虽然同样是非侵入性的,但在时间上不太精确,这使得它们在监测或预测语言生成方面不太有用。基于 MEG 的有效系统可以精确地利用脑信号,而无需参与者接受手术,为收集更多数据、训练更强大的模型和开展更多种类的实验打开了大门。
我们在想:这种研究的隐私影响可能令人不安,但请记住,Brain2Qwerty 的 MEG 系统是经过测试的最有效的方法,它要求患者长时间静坐在屏蔽室中。我们不会很快在野外读心术。
(本文系翻译,内容来自DeepLearning.AI,文章内容不代表本号立场)
觉得文章不错,顺手点个“点赞”、“在看”或转发给朋友们吧。

相关阅读:
为什么说DeepSeek在物理世界最大的应用可能是智能电动车?
关于译者

关注公众号看其它原创作品
坚持提供对你有用的信息
觉得好看,点个“点赞”、“在看”或转发给朋友们,欢迎你留言。
460

被折叠的 条评论
为什么被折叠?



