自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

hdd_gcw的博客

原创语音算法之语音分离

当前最优模型虽在实验室数据表现优异，但在真实场景（如车载环境、多人嘈杂餐厅）仍有显著性能落差。信号物理约束与深度学习黑箱的融合，以及计算效率与精度的平衡，仍是领域核心攻坚方向。语音分离的目标是将一个包含多个声源混合的音频信号，分解成其各个组成成分（源信号）的估计。3）语音和各种环境噪声（语音增强，可视为一种特殊的分离）2）人声（歌声或说话声）和伴奏音乐（人声/音乐分离）1）多个说话人的语音（多说话人分离）4）不同乐器的声音（音乐源分离）

2025-08-03 10:48:21 482

kaldi工具箱

kaldi工具箱，kaldi是一款语音识别工具库，由Daniel Povey进行开发和维护，整个框架比较成熟，在容纳经久不衰的GMM-HMM、SGMM-HMM、DNN-HMM等多种语音识别模型之外，还将现阶段比较“火”的DNN、CNN、LSTM、BLSTM等深度神经网络模型加入其中，获得了广大科研工作者和不少企业公司研发团队的青睐。

2018-03-10

CUDA以及驱动更新

当时自己安装的时候做的笔记，主要是基于centos7下面cuda的更新，做的比较粗糙，希望有帮助。

2018-11-12

dic_match.py

python批量处理wav文件，将两个文件以字典的方式进行存储，然后进行匹配，当字典1里面的键与字典2里面的键相同的时候，进行输出。

2020-07-14

服务器上面硬盘挂载

当时在挂载硬盘的时候自己做的文档，因为当时挂载的时候出现的很多问题，希望可以有帮助。

2018-11-12

get_wav.py

使用python进行查找，查找文件夹下面的子文件夹下面的wav文件，并输出wav文件的具体位置，直接寻找子文件夹下面的所有文件，并输出wav文件。

2020-07-14

deal_blank.py

使用python进行数据处理，处理text，当text里面有空行的时候，使用python进行删除text里面的空行。

2020-07-14

语音识别噪声库

应用于语音识别数据加噪的数据，这里面包含了各种噪声，kaldi下面thchs30里面有具体的加噪代码，增加噪声可以使得声学模型更具有鲁棒性。有兴趣的可以尝试。

2019-04-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除