20190508

最新推荐文章于 2020-11-08 22:13:17 发布

原创最新推荐文章于 2020-11-08 22:13:17 发布 · 140 阅读

0 ·

CC 4.0 BY-SA版权

学习笔记专栏收录该内容

68 篇文章

订阅专栏

本文介绍了音视频处理领域的关键技术和应用，包括语音识别（ASR）、语音活动检测（VAD）、说话人识别、语音关键词检索、鸡尾酒会问题的解决方案以及计算听觉场景分析（CASA）。CASA关注于声源分离，模拟人类听觉特性，解决复杂环境下的声音识别和分离问题。

什么是等错误率（EER）？here

有时间好好看看librosa都能对声音做什么分析

语音识别，ASR，automatic speech recognition，输入一段语音，输出一段文字
端点检测，VAD，voice activity detection，标注一句话的起始时间
说话人识别，speaker verification
语音关键词检索，spoken term detection，keyword spotting，直接对语音文件搜索
鸡尾酒会问题，speaker diarisation 参考：one two

计算听觉场景分析（CASA/computational auditory scene analysis）here
CASA 主要关注的领域是声源分离。这里的声源不单是指人的声音，也可能是其它各种声音（比如街上汽车和救护车的声音）——这些都是声源。声源分离的目标就是将这些声音分离开。针对这一问题的早期解决方式是通过统计的方法把声音里面的统计特性提取出来；计算听觉场景分析则在很大程度上是对人的听觉特性的模拟。

CASA 这个领域很大程度上基于听觉场景分析（ASA/auditory scene analysis）。ASA 是心理听觉（psychoacoustics）的一个研究领域，这是心理学和听觉的交叉领域。其中最有名的问题叫做「鸡尾酒会问题（cocktail party problem）」；而人能够解决鸡尾酒会问题。