自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 资源 (7)
  • 收藏
  • 关注

原创 语音算法之语音分离

当前最优模型虽在实验室数据表现优异,但在真实场景(如车载环境、多人嘈杂餐厅)仍有显著性能落差。信号物理约束与深度学习黑箱的融合,以及计算效率与精度的平衡,仍是领域核心攻坚方向。语音分离的目标是将一个包含多个声源混合的音频信号,分解成其各个组成成分(源信号)的估计。3)语音和各种环境噪声(语音增强,可视为一种特殊的分离)2)人声(歌声或说话声)和伴奏音乐(人声/音乐分离)1)多个说话人的语音(多说话人分离)4)不同乐器的声音(音乐源分离)

2025-08-03 10:48:21 482

kaldi工具箱

kaldi工具箱,kaldi是一款语音识别工具库,由Daniel Povey进行开发和维护,整个框架比较成熟,在容纳经久不衰的GMM-HMM、SGMM-HMM、DNN-HMM等多种语音识别模型之外,还将现阶段比较“火”的DNN、CNN、LSTM、BLSTM等深度神经网络模型加入其中,获得了广大科研工作者和不少企业公司研发团队的青睐。

2018-03-10

CUDA以及驱动更新

当时自己安装的时候做的笔记,主要是基于centos7下面cuda的更新,做的比较粗糙,希望有帮助。

2018-11-12

dic_match.py

python批量处理wav文件,将两个文件以字典的方式进行存储,然后进行匹配,当字典1里面的键与字典2里面的键相同的时候,进行输出。

2020-07-14

服务器上面硬盘挂载

当时在挂载硬盘的时候自己做的文档,因为当时挂载的时候出现的很多问题,希望可以有帮助。

2018-11-12

get_wav.py

使用python进行查找,查找文件夹下面的子文件夹下面的wav文件,并输出wav文件的具体位置,直接寻找子文件夹下面的所有文件,并输出wav文件。

2020-07-14

deal_blank.py

使用python进行数据处理,处理text,当text里面有空行的时候,使用python进行删除text里面的空行。

2020-07-14

语音识别噪声库

应用于语音识别数据加噪的数据,这里面包含了各种噪声,kaldi下面thchs30里面有具体的加噪代码,增加噪声可以使得声学模型更具有鲁棒性。有兴趣的可以尝试。

2019-04-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除