72、语音合成、识别技术研究：专业领域与性能评估

最新推荐文章于 2025-11-24 17:02:16 发布

sprite

最新推荐文章于 2025-11-24 17:02:16 发布

阅读量42

点赞数

CC 4.0 BY-SA版权

分类专栏：文本与语音的智能对话文章标签：语音合成语音识别专业领域

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sprite/article/details/151005273

文本与语音的智能对话专栏收录该内容

72 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音合成、识别技术研究：专业领域与性能评估

在语音技术的研究中，语音合成和语音识别是两个重要的方向。下面将为大家详细介绍语音偏好与专业领域的关系、对话时长的影响，以及在线Kaldi语音识别器集成到Alex对话系统框架的相关内容。

语音偏好与专业领域的关系

在语音合成相关研究里，研究人员对被试者的语音偏好进行了调查，并分析了其与专业领域的关联。以下是被试者专业领域与语音偏好的关系表格：
| | 偏技术领域 | 偏人文领域 | 总计 |
| — | — | — | — |
| 不喜欢语音A | 11 (92%) | 10 (59%) | 21 |
| 不喜欢语音B | 1 (8%) | 7 (41%) | 8 |
| 总计 | 12 | 17 | 29 |

从这个表格中我们可以推测，具有更多技术背景的被试者容易识别出语音A的技术缺陷，他们的心理默认操作模式可以通俗地解释为“一个事物的技术缺陷越多，它就越差”。而人文领域的被试者则更有可能避免这种技术至上的评估，他们的偏好更多地受到对交流伙伴的无意识亲和力的驱动。基于此，我们可以得出两个可能并不相互排斥的结论：
1. 没有技术背景的人更有可能陷入文本转语音（TTS）的“恐怖谷”效应。
2. 有技术背景的人不太关注他们的无意识亲和力，因为这种亲和力被他们对技术的热情所取代。

不过，要证明或反驳这些结论，还需要进行更精细、广泛的实验。

研究人员还探讨了被试者对对话的兴趣是否会影响语音偏好。通过皮尔逊卡方检验，发现“语音偏好与被试者的兴趣无关”这一零假设不能被拒绝（p = 0.40）。但被试者的专业领域和他们对对话的兴趣之间可能存在某

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。