语音合成、识别技术研究:专业领域与性能评估
在语音技术的研究中,语音合成和语音识别是两个重要的方向。下面将为大家详细介绍语音偏好与专业领域的关系、对话时长的影响,以及在线Kaldi语音识别器集成到Alex对话系统框架的相关内容。
语音偏好与专业领域的关系
在语音合成相关研究里,研究人员对被试者的语音偏好进行了调查,并分析了其与专业领域的关联。以下是被试者专业领域与语音偏好的关系表格:
| | 偏技术领域 | 偏人文领域 | 总计 |
| — | — | — | — |
| 不喜欢语音A | 11 (92%) | 10 (59%) | 21 |
| 不喜欢语音B | 1 (8%) | 7 (41%) | 8 |
| 总计 | 12 | 17 | 29 |
从这个表格中我们可以推测,具有更多技术背景的被试者容易识别出语音A的技术缺陷,他们的心理默认操作模式可以通俗地解释为“一个事物的技术缺陷越多,它就越差”。而人文领域的被试者则更有可能避免这种技术至上的评估,他们的偏好更多地受到对交流伙伴的无意识亲和力的驱动。基于此,我们可以得出两个可能并不相互排斥的结论:
1. 没有技术背景的人更有可能陷入文本转语音(TTS)的“恐怖谷”效应。
2. 有技术背景的人不太关注他们的无意识亲和力,因为这种亲和力被他们对技术的热情所取代。
不过,要证明或反驳这些结论,还需要进行更精细、广泛的实验。
研究人员还探讨了被试者对对话的兴趣是否会影响语音偏好。通过皮尔逊卡方检验,发现“语音偏好与被试者的兴趣无关”这一零假设不能被拒绝(p = 0.40)。但被试者的专业领域和他们对对话的兴趣之间可能存在某
超级会员免费看
订阅专栏 解锁全文
920

被折叠的 条评论
为什么被折叠?



