端点检测的双门限法理解
双门限法主要是用短时能量和短时过零率。
短时能量用于区分浊音(能量高)和清音(能量低)
短时过零率zcr用于区分清音(准确地说是清辅音)和静音,清辅音zcr高,静音的zcr低。
语音的两端是辅音:
元音:气流呼出口腔时不受到阻碍的音
辅音:气流受到口腔或者鼻腔阻碍的音;
清音:声带不震动的音
浊音:声带振动的音
元音都是浊音,辅音分为清辅音和浊辅音。
声音的启动和停止都需要声道上肌肉的运动完成,此运动对气流造成阻碍,也就是说在气道开合的时候,即每个音节的前后端,是辅音,而音节的主体部分,是元音。
所以在语音段的开始和结尾,要用短时过零率检测是否有辅音,不然的话,因为清辅音的能量小,只用短时能量区分,就被当成了静音。