自动语音识别文本聚类与捷克语语料语音分割研究
在当今的语音技术领域,自动语音识别文本聚类以及对自然口语语料的语音分割研究具有重要意义。下面将分别介绍自动语音识别文本聚类的相关研究,以及对Nijmegen Corpus of Casual Czech(NCCCz)语料进行语音分割的初步研究。
自动语音识别文本聚类
实验数据
研究使用了来自客服中心的数据集,训练数据为70MB,训练集和测试集不重叠。采用Good - Turing平滑(所有n - 元语法的截止值为1),测试集的识别准确率在80 - 65%之间。基于识别结果创建了第二个实验数据集,该数据集与第一个数据集对应相同的音频文件,但包含通过自动语音转文本转换(而非手动)生成的文本,且识别准确率低于100%。
|数据集描述|具体情况|
| ---- | ---- |
|数据集内容|每个文本是一个短电话通话的识别结果,文本长度较短,面临短文本聚类任务,难以收集足够统计信息来改进文本处理|
文本预处理与停用词处理
- 文本预处理 :包括将所有字符转换为小写、去除标点符号,并删除在少于三篇文档(文档总数为186篇)中出现的单词。实验证实,使用此阈值可提高聚类质量。
- 停用词处理 :手动文本分析显示,大多数文本包含相同的高频词和短语,这些词对聚类主题无信息价值,如问候语、告别语、感谢语以及常用功能词。这些无信息的词会引入噪声,导致聚类重叠。研究创建了频率词典,专家从词典中选择高频常用功能词添加到停用词列表中。但需注意,并非所有高频词都应添加到停用词列表,因
超级会员免费看
订阅专栏 解锁全文
42

被折叠的 条评论
为什么被折叠?



