什么是等错误率(EER)?here
有时间好好看看librosa都能对声音做什么分析
语音识别,ASR,automatic speech recognition,输入一段语音,输出一段文字
端点检测,VAD,voice activity detection,标注一句话的起始时间
说话人识别,speaker verification
语音关键词检索,spoken term detection,keyword spotting,直接对语音文件搜索
鸡尾酒会问题,speaker diarisation 参考:one two
计算听觉场景分析(CASA/computational auditory scene analysis)here
CASA 主要关注的领域是声源分离。这里的声源不单是指人的声音,也可能是其它各种声音(比如街上汽车和救护车的声音)——这些都是声源。声源分离的目标就是将这些声音分离开。针对这一问题的早期解决方式是通过统计的方法把声音里面的统计特性提取出来; 计算听觉场景分析则在很大程度上是对人的听觉特性的模拟。
CASA 这个领域很大程度上基于听觉场景分析(ASA/auditory scene analysis)。ASA 是心理听觉(psychoacoustics)的一个研究领域,这是心理学和听觉的交叉领域。其中最有名的问题叫做「鸡尾酒会问题(cocktail party problem)」;而人能够解决鸡尾酒会问题。