59、自动语音识别文本聚类与捷克语语料语音分割研究

最新推荐文章于 2025-09-30 16:35:34 发布

sprite

最新推荐文章于 2025-09-30 16:35:34 发布

阅读量51

点赞数

CC 4.0 BY-SA版权

分类专栏：文本与语音的智能对话文章标签：自动语音识别文本聚类停用词处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sprite/article/details/151005241

文本与语音的智能对话专栏收录该内容

72 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自动语音识别文本聚类与捷克语语料语音分割研究

在当今的语音技术领域，自动语音识别文本聚类以及对自然口语语料的语音分割研究具有重要意义。下面将分别介绍自动语音识别文本聚类的相关研究，以及对Nijmegen Corpus of Casual Czech（NCCCz）语料进行语音分割的初步研究。

自动语音识别文本聚类

实验数据

研究使用了来自客服中心的数据集，训练数据为70MB，训练集和测试集不重叠。采用Good - Turing平滑（所有n - 元语法的截止值为1），测试集的识别准确率在80 - 65%之间。基于识别结果创建了第二个实验数据集，该数据集与第一个数据集对应相同的音频文件，但包含通过自动语音转文本转换（而非手动）生成的文本，且识别准确率低于100%。
|数据集描述|具体情况|
| ---- | ---- |
|数据集内容|每个文本是一个短电话通话的识别结果，文本长度较短，面临短文本聚类任务，难以收集足够统计信息来改进文本处理|

文本预处理与停用词处理

文本预处理 ：包括将所有字符转换为小写、去除标点符号，并删除在少于三篇文档（文档总数为186篇）中出现的单词。实验证实，使用此阈值可提高聚类质量。
停用词处理 ：手动文本分析显示，大多数文本包含相同的高频词和短语，这些词对聚类主题无信息价值，如问候语、告别语、感谢语以及常用功能词。这些无信息的词会引入噪声，导致聚类重叠。研究创建了频率词典，专家从词典中选择高频常用功能词添加到停用词列表中。但需注意，并非所有高频词都应添加到停用词列表，因

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。