卷积LSTM与3D - CNN网络及文本图像超分辨率的研究
在深度学习的研究领域中,卷积LSTM和3D - CNN网络在超声无声语音接口等方面的应用,以及文本图像超分辨率技术的发展都备受关注。接下来,我们将详细探讨这两个方面的研究内容。
卷积LSTM与3D - CNN网络在超声无声语音接口中的应用
在超声无声语音接口的研究中,数据处理是关键的第一步。原始的964 × 64数据项被下采样到128 × 64像素,并且在输入网络之前,数据的强度范围被归一化到[-1, 1]区间。语音信号以11025 Hz的采样率记录,然后使用SPTK工具包转换为80-bin的梅尔频谱图。机器学习的目标是学习超声图像序列和梅尔频谱图向量序列之间的映射关系。由于这两个序列是完全同步的,所以采用图像到向量的映射任务作为学习目标,并使用均方误差(MSE)作为网络训练的损失函数。80个梅尔频率系数作为训练目标,通过WaveGlow重建语音信号。为了便于训练,每个目标都被标准化为零均值和单位方差,训练输入由25个连续的块组成,这样所有的深度神经网络(DNN)变体都能在信息提取过程中涉及时间轴。
实验采用了Keras和TensorFlow后端实现网络,应用了三种不同的能够处理三维数据块的网络架构:
1. 3D卷积神经网络(3D - CNN) :该模型在之前的研究中有详细描述。它将25个视频帧的输入序列以5帧为一组进行3D卷积处理,通过设置时间轴的步长参数s为5来最小化块之间的重叠。这些块再经过3个额外的Conv3D层处理,每两个卷积层后有一个池化层。最后,输出被展平并通过一个密集层在时间轴上进行整合,输出隐藏层是一个有80个神经元的线性层,对应80个作为训练目标的频谱参
超级会员免费看
订阅专栏 解锁全文
964

被折叠的 条评论
为什么被折叠?



