66、语音清晰度可视化与自动语音识别标点补全研究

sprite

于 2025-08-24 13:12:23 发布

阅读量53

点赞数

CC 4.0 BY-SA版权

分类专栏：文本与语音的智能对话文章标签：语音清晰度可视化自动语音识别标点补全

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sprite/article/details/151005257

文本与语音的智能对话专栏收录该内容

72 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音清晰度可视化与自动语音识别标点补全研究

在语音研究领域，语音清晰度的可视化以及自动语音识别后的标点补全是两个重要的研究方向。下面将为大家详细介绍这两方面的研究内容。

语音清晰度可视化研究

语音治疗师通过初步研究，以4分制对呼吸声进行评级。结果显示，功能性发声障碍患者的平均评级（0.97）远低于器质性发声障碍患者（1.64）。

研究还探讨了特征的语言独立性。有研究使用佛兰芒语和德语的病理语音训练清晰度模型，并分别在相同语言上进行测试。在本次研究中，测试人员说德语，而语音模型是用佛兰芒语语音训练的。所有测试说话者都表现出相似类型的发声障碍，且训练是使用正常说话者的数据进行的。当为测试说话者训练支持向量回归清晰度模型时，计算得分与参考清晰度之间的平均均方根误差为0.74，对应的皮尔逊相关系数r = 0.70，这证实了这些特征适用于清晰度评估。

该研究得出以下结论：
- 音系和音位特征可用于显示清晰度水平，甚至适用于独立于语言的分析。
- 当前的特征集可作为自动区分不同类型嘶哑的基础。
- 随着更多特征的整合，该方法未来可能在语音康复领域提供客观支持。

自动语音识别标点补全研究

随着自动语音识别（ASR）应用的增加，为其输出的文本添加标点变得至关重要。因为当呈现的纯文本片段超过一个句子时，阅读会变得困难和不舒服，特别是对于一些语言形式较为松散的语言，如斯拉夫语系。

提出的方案

音频文档处理可概括为四个功能模块：自动语音识别系统（ASR）、文档分割（Doc Seg）、逗号补全和句号确定。
- ASR ：

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。