12、情感环境下的说话人识别与基于内容的医学图像检索

情感环境下的说话人识别与基于内容的医学图像检索

1 情感环境下的说话人识别

1.1 引言

说话人识别是基于语音信号的特定特征来识别说话人的过程,其应用广泛,如通过语音进行各种服务的访问控制、机密信息的安全控制以及基于电话的自动访问等。根据说话文本,说话人识别可分为文本相关(固定文本)和文本无关(自由文本)两种类型。本文聚焦于文本相关的说话人识别。

目前的说话人识别系统在处理工作室录制的中性语音时表现高效,但在现实场景中,要求说话人在训练和测试时都保持中性情绪是不切实际的。情感环境下的说话人识别是人机交互中的重要研究课题,因为人类日常交流中约 90% 的语音带有情感,所以在情感环境中进行说话人识别能使语音系统更加自然,在呼叫中心对话分析等应用中具有重要意义。

1.2 数据库

本研究使用了印地语情感语音语料库,该语料库由来自印度瓦拉纳西 Gyanavani FM 广播电台的 10 名专业艺术家(5 男 5 女)录制。男性艺术家年龄在 28 - 48 岁之间,有 5 - 20 年的经验;女性艺术家年龄在 20 - 30 岁之间,有 3 - 10 年的经验。

录制时使用了 15 条印地语文本提示,所有句子在语义上都是中性的。每位艺术家需在一次会话中用 8 种基本情绪(愤怒、厌恶、恐惧、快乐、中性、悲伤、讽刺和惊讶)说出这 15 个句子,共录制了 10 次会话。语料库中的总话语数为 12000 条(15 个句子 × 8 种情绪 × 10 位说话人 × 10 次会话),每种情绪有 1500 条话语。句子中的单词和音节数量分别在 4 - 7 和 9 - 17 之间,语料库总时长约为 9 小时。

语音样本使用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值