一直以来,语音分离在音视频领域都是一个重要的课题,近年来深度学习的快速发展为解决单通道语音分离提供了一个新的思路。在LiveVideoStackCon 2019上海 音视频技术大会上,大象声科高级音频算法工程师闫永杰以降噪场景为例,详细介绍了深度学习在单通道语音分离中的应用。
文 / 闫永杰
整理 / LiveVideoStack
大家好,我是来自大象声科的闫永杰,接下来我会从以下六个方面为大家介绍深度学习在单通道语音分离中的应用:
1、 单通道语音分离问题的引入
2、 借助深度学习来解决单通道语音分离
3、 工程实践中的挑战及解决方案
4、 思考
5、 总结
一、单通道语音分离问题的引入
在第一部分,我会简单介绍单通道语音分离问题的引入。首先,存在一个问题就是到底什么是单通道语音分离呢?对于做与语音相关工作的工作者来说,单通道语音分离是大家比较熟悉的一个问题,那么我就先从音频采集的方式开始来为大家介绍。
1)音频采集的方式
目前主流的音频采集方式主要包括两种场景:近场拾音和远场拾音。对于近场拾音,在我们生活中是很常见的,例如我们在使用手机打电话时手持或者开启免提。对于远场拾音,我们同样也不会陌生,像现在非常火的 麦克风阵列技术就是采用的远程拾音,例如小爱同学、天猫精灵等,它们都可以做到在相隔三到五米的情况下实现远距离拾音。那么,就近场拾音和远场拾音的区别所在,首先是使用场景的不同,再就是麦克风数量的不同。远场拾音采用的麦克风数量通常为多个,有两麦、四麦、六麦、七麦,甚至还包括更加非常复杂的情况。而对于近场拾音,以手机通话来举例,通常情况下使用的是单麦或者双麦。当我们手持手机时,如果仔细观察手机可以发现手机实际上是有两个麦克风的,其中位于底部的是主麦,位于顶部的是副麦,在业界副麦也常会被叫做降噪麦克风。本次为大家介绍的单通道语音,主要讨论的是单麦克风近场拾音的场景。
2)语音分离
首先,我们需要来界定一下,到底什么是语音分离?实际上,我们经常所讲的降噪、去混响、多人声分离等等的过程都属于语音分离的过程。其中,降噪指的就是语音与噪音的分离,去混响指的就是语音与混响的分离,而多人声分离的场景则相对复杂一些,在这里包含有目标人声和其它的干扰人声。其实对于以上几种语音分离的场景,它们的最终目标是相同的,即将目标人声与其它非目标人声的语音进行分离。下面就以降噪为例,为大家介绍语音分离的过程。
3)降噪