编者按:过去的2017年是硕果累累的一年,它见证了机器学习技术的突飞猛进,也见证了智能语音交互在中国市场上的真正爆发。随着众多语音识别技术纷纷落地,大量开源音频资料数据集逐渐涌现,无论是对在校的学生,还是已经就业的数据科学家,学会将深度学习技术应用于音频处理将是一个明智的选择。
近日,数据科学家、深度学习爱好者Faizan Shaikh分享了入门深度学习的10个音频处理任务,让我们阅读原文来一探究竟。
1.音频分类
音频分类是语音处理领域的一个基本问题,从本质上说,它就是从音频中提取特征,然后判断具体属于哪一类。现在我们已有许多优秀的音频分类应用,如genre classification、instrument recognition和artist identification等。
解决音频分类问题的常用方法是预处理音频输入以提取有用的特征,然后在其上应用分类算法。例如在下面这个案例研究中,它给定时长为5秒的声音转录,要求制作一个分类器/神经网络确定声音属于那一类——狗吠声还是钻孔声。文中给出的解决方案是提取一个名为MFCC的音频特征,之后再用神经网络找到合适的类别。
案例:Getting Started with Audio Data Analysis using Deep Learning
2.音频指纹识别
音频指纹识别的目的是从音频中提取一段特定的数字摘要,用于快速识别该段音频是否来自音频样本,或从音频库中搜索出带有相同数字摘要的音频。Shazam是当前比较出色的音频指纹识别应用之一,输入2—5秒音乐后,它能迅速识别出音乐具体来自哪首歌曲。就当前的行业标准而言,现在开发的工具基本都能完成相关任务,但在背景嘈杂、高噪声的环境下,这类技术还存在

本文介绍了10个深度学习在音频处理中的应用任务,包括音频分类、音频指纹识别、自动音乐标注等,提供了相关案例链接,助力开发者入门音频处理领域。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



