50、捷克广播新闻中基于文本的半自动说话人姓名提取短语研究

sprite

于 2025-08-08 11:26:07 发布

阅读量59

点赞数

CC 4.0 BY-SA版权

分类专栏：文本与语音的智能对话文章标签：捷克广播新闻说话人姓名提取半自动方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sprite/article/details/151005217

文本与语音的智能对话专栏收录该内容

72 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

捷克广播新闻中基于文本的半自动说话人姓名提取短语研究

1. 引言

研究源于让捷克广播音频档案公开可访问和可搜索的项目需求。该任务需要多种语音识别技术：
- 大词汇量连续语音识别器（LVCSR），能识别捷克语和斯洛伐克语，并自动确定正在说的语言。
- 文档分割模块，可将文档分割成说话人同质的片段。
- 说话人识别工具。
- 后处理模块，使识别的文本更易读。

说话人识别工具需要一个说话人数据库，该数据库有两个层面：一是重要说话人和人物的列表及基本信息；二是与每个说话人相关的训练数据和对应模型。由于录音历史久、数量多，说话人数量庞大，因此需要一种无监督的方法来完成以下任务：
- 在识别文本中查找姓名。
- 判断人物是说话人还是仅被提及。
- 估计是否有该说话人朗读的录音片段。

为改进自动转录，计划使用说话人自适应技术，这需要识别说话人并准备声学数据。

2. 技术背景 - 系统和程序

研究需要多个系统和程序：
- 自动语音识别系统 ：由标准LVCSR系统完成转录，该系统处理16kHz音频数据，转换为39个MFCC特征，应用全局或浮动CMS。声学模型使用上下文相关的三音素HMM表示41个捷克音素和7种噪声，在320小时语音上训练。解码器实时工作，词汇量约500,000个词汇，语言模型基于二元语法，使用Kneser - Ney方法平滑。
- 文档分割和说话人识别模块 ：文档分割是diarisation的一部分，包括语音活动检测、说话人切换检测和说话人聚类。说话人识别模块将说话人ID或姓

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。