- 博客(18)
- 收藏
- 关注
原创 利用深度学习和语音合成的神经语音解码框架——A neural speech decoding frameworkleveraging deep learning and speechsynthes
摘要从神经信号中解码人类语音对于脑机接口(BCI)技术来说至关重要,这项技术旨在为有神经缺陷的人群恢复语音能力。然而,这仍然是一个已知的任务,主要是由于与。这里,我们提出了一个基于深度学习的新型神经语音解码,该框架包括一个将皮层电图(ECoG)信号从大脑皮层翻译成可解释语音参数的ECoG解码器,以及一个将语音参数映射到声谱图的新型可微分语音合成器。语音到语音的自编码器,包括一个语音编码器和相同的语音合成器,以生成相关语音参数,从而促进ECoG解码器的训练。
2025-03-16 21:48:16
1064
原创 大型数据集数据处理函数
loadImgs 返回一个列表,列表中的每个元素是一个字典,包含图像的元数据(如 id、file_name、coco_url 等)。第8列(BOLD5000):若图像包含在BOLD5000数据集中,则为True(见http://bold5000.github.io)。返回值:io.imread 通常返回一个 NumPy 数组,表示图像的像素值(RGB格式,形状为 (height, width, 3))。第4列(cropBox):裁剪框的四个数字元组(顶部、底部、左侧、右侧),以图像尺寸的分数表示。
2025-03-07 21:22:03
917
原创 大语言模型从理论到实践(第二版)-学习笔记(一)transformer理论与实践
机器翻译的目标是从源语言(Source Language)转换到目标语言(Target Language)。Transformer结构完全通过注意力机制完成对源语言序列和目标语言序列全局依赖的建模。注意力层:使用多头注意力(Multi-Head Attention)机制整合上下文语义。多头注意力并行运行多个独立注意力机制,进而从多维度捕捉输入序列信息。它使得序列中任意两个单词之间的依赖关系可以直接被建模而不基于传统的循环结构,从而更好地解决文本的长程依赖问题。
2025-03-06 18:36:27
1395
原创 多模态机器学习的基础和趋势:原理、挑战和开放问题(上)
开发能够通过多模态经验和数据进行理解、推理和学习的计算机代理,一直是人工智能的宏伟目标,类似于人类通过多种感知模态来感知和与世界互动。随着具身自主代理[37, 222]、自动驾驶汽车[295]、图像和视频理解[11, 243]、图像和视频生成[210, 234]以及多传感器融合等领域的最新进展,我们离能够集成和从多种感知模态中学习的智能代理越来越近。--CMU多模态学习课程配套论文-深入学习多模态
2025-03-01 12:41:50
1242
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人