- 博客(10)
- 收藏
- 关注
原创 结合唇动信息的语音任务
在过去的十年里,卷积神经网络(CNN,或称ConvNet)在计算机视觉和语音处理任务中得到了广泛的应用,并取得了良好的性能。然而,由于缺乏大规模的公共AV-LB数据库,导致AV-LB任务的深度学习探索停滞不前。除了双视听流之外,视频流的一个基本要求是嘴唇周围的感兴趣区域(ROI)必须具有足够的分辨率。我们的实验表明,DeepLip在上下文建模方面优于传统的嘴唇生物识别系统,与单峰系统相比,实现了超过50%的相对改进,在测试数据集上的等误差率分别为0.75%和1.11%面部追踪模型结构(可转onnx)
2024-04-01 14:19:53
488
原创 如何实现对位相乘
调用函数:torch.mul(a, b)是矩阵a和b对应位相乘, 要求维度相同 a.b应用场景 fsmn 的复现 filter 的对位相乘区分函数:torch.mm(a, b)是矩阵a和b矩阵相乘,比如a的维度是(1, 2),b的维度是(2, 3),返回的就是(1, 3)的矩阵。应用场景 线性投影层 改变维度...
2021-07-13 11:14:39
1165
原创 Microsoft Visual C++ 14.0 is required解决方案(win10安装PyPESQ库 避雷!!!)
建议不要装!1.遇到的问题:pip报错Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”
2021-06-15 16:35:31
1086
4
翻译 DCCRN详读-翻译-概括
DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech EnhancementDCCRN:用于相位感知的语音增强的深度复数卷积递归网络摘要随着深度学习的成功语音增强在可理解性和可感知质量方面都有了提升。传统上,在时频(TF)上的方法主要是通过简单的卷积神经网络(CNN)或循环神经网(RNN)预测时频的遮罩矩阵或语音频谱。最近的一些研究使用复数频谱图作为训练目标,但训练是在实数网络中完成,其分别预测幅值.
2021-05-25 17:24:28
1782
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人