20190508

本文介绍了音视频处理领域的关键技术和应用,包括语音识别(ASR)、语音活动检测(VAD)、说话人识别、语音关键词检索、鸡尾酒会问题的解决方案以及计算听觉场景分析(CASA)。CASA关注于声源分离,模拟人类听觉特性,解决复杂环境下的声音识别和分离问题。

什么是等错误率(EER)?here

有时间好好看看librosa都能对声音做什么分析

语音识别,ASR,automatic speech recognition,输入一段语音,输出一段文字
端点检测,VAD,voice activity detection,标注一句话的起始时间
说话人识别,speaker verification
语音关键词检索,spoken term detection,keyword spotting,直接对语音文件搜索
鸡尾酒会问题,speaker diarisation 参考:one two

计算听觉场景分析(CASA/computational auditory scene analysis)here
CASA 主要关注的领域是声源分离。这里的声源不单是指人的声音,也可能是其它各种声音(比如街上汽车和救护车的声音)——这些都是声源。声源分离的目标就是将这些声音分离开。针对这一问题的早期解决方式是通过统计的方法把声音里面的统计特性提取出来; 计算听觉场景分析则在很大程度上是对人的听觉特性的模拟。

CASA 这个领域很大程度上基于听觉场景分析(ASA/auditory scene analysis)。ASA 是心理听觉(psychoacoustics)的一个研究领域,这是心理学和听觉的交叉领域。其中最有名的问题叫做「鸡尾酒会问题(cocktail party problem)」;而人能够解决鸡尾酒会问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值