计算机交互技术通过几年连续开发,语音信号中包含的情感信息越来越受到关注。通常,语音信号的感情特征多通过语音韵律的变化来表现。例如,当人们生气或惊讶时,演讲速度会增加,音量会增加,音调也会改变,而当你忧郁或伤心时,声音往往很低。因此,振幅的结构、发音的持续时间、说话速度等语音信号的特征是所有重要的研究特征。
在进行语音识别的过程中,系统的处理对象是有效语音信号。尤其在在多人说话的情况下,如果不对输入信号做分离处理而直接进行语音识别的话,识别效果会很差。这时,需要从输入信号中找到语音部分的起止点和终止点,从中抽取语音情感识别所需的信号特征。这样的语音信号“切割”过程被称为语音端点检测(Voice Activity Detection,VAD),是一种驱动性的语音信号处理技术。
简单来说,VAD就是将有效的语音信号和无用的语音信号或者噪音信号进行分离,以使后续的说话人识别、语义识别及语音情感分析等工作更加高效,是语音处理过程非常必要且关键的环节。
1.在存储或传输语音的场景下,从连续的语音流中分离出有效语音可以降低存储或传输的数据量;
2.只针对有效语音信号进行识别工作,在不降低语音信息量的前提下,可大大降低语音识别系统的运算量;
3.由于去除了非语音信号的中噪声的干扰,系统的识别准确率也得到了极大提高;VAD技术的兴起。
在VAD技术应用比较广就是智能电话机器人的开发,很多行业内部人士已经接触过电销机器人,并且我们在生活中也接到过许多机器人打来的电话。比如,一些来自企业招聘、教育培训、电话服务、等企业的销售电话。机器人代替人工作业已经屡见不鲜,但机器人代替人工打电话并且进行推销业务,这样的电话机器人好不好用,行业间一直有此疑问。
其次就是骚扰电话的层出不穷,好在今年3.15整治下,一些使用泛滥技术的企业都得到了应有的惩罚。同时为了整顿行业内部,也出台了相关的规定,在诸多条件的限制下,语音交互市场也慢慢走上了正轨。
回到上面的话题从最早195