情感环境下的说话人识别与基于内容的医学图像检索
1 情感环境下的说话人识别
1.1 引言
说话人识别是基于语音信号的特定特征来识别说话人的过程,其应用广泛,如通过语音进行各种服务的访问控制、机密信息的安全控制以及基于电话的自动访问等。根据说话文本,说话人识别可分为文本相关(固定文本)和文本无关(自由文本)两种类型。本文聚焦于文本相关的说话人识别。
目前的说话人识别系统在处理工作室录制的中性语音时表现高效,但在现实场景中,要求说话人在训练和测试时都保持中性情绪是不切实际的。情感环境下的说话人识别是人机交互中的重要研究课题,因为人类日常交流中约 90% 的语音带有情感,所以在情感环境中进行说话人识别能使语音系统更加自然,在呼叫中心对话分析等应用中具有重要意义。
1.2 数据库
本研究使用了印地语情感语音语料库,该语料库由来自印度瓦拉纳西 Gyanavani FM 广播电台的 10 名专业艺术家(5 男 5 女)录制。男性艺术家年龄在 28 - 48 岁之间,有 5 - 20 年的经验;女性艺术家年龄在 20 - 30 岁之间,有 3 - 10 年的经验。
录制时使用了 15 条印地语文本提示,所有句子在语义上都是中性的。每位艺术家需在一次会话中用 8 种基本情绪(愤怒、厌恶、恐惧、快乐、中性、悲伤、讽刺和惊讶)说出这 15 个句子,共录制了 10 次会话。语料库中的总话语数为 12000 条(15 个句子 × 8 种情绪 × 10 位说话人 × 10 次会话),每种情绪有 1500 条话语。句子中的单词和音节数量分别在 4 - 7 和 9 - 17 之间,语料库总时长约为 9 小时。
语音样本使用
超级会员免费看
订阅专栏 解锁全文
368

被折叠的 条评论
为什么被折叠?



