《DeepSeek大模型高性能核心技术与多模态融合开发(人工智能技术丛书)》(王晓华)【摘要 书评 试读】- 京东图书
随着信息技术的不断发展,如何让机器识别人类情绪,这个问题受到了学术界和工业界的广泛关注。目前,情绪识别有两种方式,一种是检测生理信号,如呼吸、心率和体温等;另一种是检测情感行为,如人脸微表情识别、语音情绪识别和姿态识别。语音情绪识别(Speech Emotion Recognition,SER)是一种生物特征属性的识别方法,可通过一段语音的声学特征(与语音内容和语种无关)来识别说话人的情绪状态。语音情绪示例如图6-3所示。

图6-3 语音情绪示例
在上一节中,我们完成了基于文本的评论情感分类模型,并完成了一个具有示范意义的模型训练。本节将继续完成一项语音实战任务,即基于MLA的人类语音情感分类。
6.2.1 情绪数据的获取与标签的说明
首先是语音情绪数据集的下载,这里我们使用瑞尔森情感语音和歌曲视听数据库RAVDESS。RAVDESS语音数据集部分包含1440个文件:每个演员60次试验×24名演员=1440。RAVDESS包含24名专业演员(12名女性,12名男性),用中性的北美口音说出两个词汇匹配的陈述。言语情绪包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情。每种表情都在两种情绪强度(正常、强烈)和一种额外的中性表情下产生。
读者可以自行下载对应的数据集,这里我们使用Audio_Speech_Actors_01-24.zip这个子数据集做情感分类。下载后的数据集结构如图6-4所示。

图6-4 左图是Audio文件夹,右图是单个文件夹数据

最低0.47元/天 解锁文章
1494

被折叠的 条评论
为什么被折叠?



