语音清晰度可视化与自动语音识别标点补全研究
在语音研究领域,语音清晰度的可视化以及自动语音识别后的标点补全是两个重要的研究方向。下面将为大家详细介绍这两方面的研究内容。
语音清晰度可视化研究
语音治疗师通过初步研究,以4分制对呼吸声进行评级。结果显示,功能性发声障碍患者的平均评级(0.97)远低于器质性发声障碍患者(1.64)。
研究还探讨了特征的语言独立性。有研究使用佛兰芒语和德语的病理语音训练清晰度模型,并分别在相同语言上进行测试。在本次研究中,测试人员说德语,而语音模型是用佛兰芒语语音训练的。所有测试说话者都表现出相似类型的发声障碍,且训练是使用正常说话者的数据进行的。当为测试说话者训练支持向量回归清晰度模型时,计算得分与参考清晰度之间的平均均方根误差为0.74,对应的皮尔逊相关系数r = 0.70,这证实了这些特征适用于清晰度评估。
该研究得出以下结论:
- 音系和音位特征可用于显示清晰度水平,甚至适用于独立于语言的分析。
- 当前的特征集可作为自动区分不同类型嘶哑的基础。
- 随着更多特征的整合,该方法未来可能在语音康复领域提供客观支持。
自动语音识别标点补全研究
随着自动语音识别(ASR)应用的增加,为其输出的文本添加标点变得至关重要。因为当呈现的纯文本片段超过一个句子时,阅读会变得困难和不舒服,特别是对于一些语言形式较为松散的语言,如斯拉夫语系。
提出的方案
音频文档处理可概括为四个功能模块:自动语音识别系统(ASR)、文档分割(Doc Seg)、逗号补全和句号确定。
- ASR :
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



