一、简述
在过去几年中,深度学习为许多行业的图像和文本数据相关任务带来革命性的解决方案。但除了深入探索的自然语言处理和计算机视觉领域之外,深度学习还使我们能够以多种方式探索音频数据。
音频分类与典型机器学习项目中的其他分类任务没有太大区别,其中必须将一个或多个标签分配给数据集中的特定样本。在音频处理中,分类任务可能基于识别音频录音中所说的语言,或检测“嘿 Siri”等关键词以与手机中的个人助理开始对话。
在这里我们使用预先训练的音频转换器执行音频分类任务的过程。我们将微调 Transformer 模型来进行音乐流派分类,其中我们的模型接受音频作为输入,并将其标记为流行或摇滚等风格。
此类任务在一些流媒体平台中非常常见,用于推荐与用户当前正在收听的歌曲相似的歌曲。
二、音频数据的特点
声波的问题在于,它们是随着时间的推移由无限多个值组成的连续信号,这使得数字设备难以处理和存储它们。为了使用它们,声波同样要用数字表