50、捷克广播新闻中基于文本的半自动说话人姓名提取短语研究

捷克广播新闻中基于文本的半自动说话人姓名提取短语研究

1. 引言

研究源于让捷克广播音频档案公开可访问和可搜索的项目需求。该任务需要多种语音识别技术:
- 大词汇量连续语音识别器(LVCSR),能识别捷克语和斯洛伐克语,并自动确定正在说的语言。
- 文档分割模块,可将文档分割成说话人同质的片段。
- 说话人识别工具。
- 后处理模块,使识别的文本更易读。

说话人识别工具需要一个说话人数据库,该数据库有两个层面:一是重要说话人和人物的列表及基本信息;二是与每个说话人相关的训练数据和对应模型。由于录音历史久、数量多,说话人数量庞大,因此需要一种无监督的方法来完成以下任务:
- 在识别文本中查找姓名。
- 判断人物是说话人还是仅被提及。
- 估计是否有该说话人朗读的录音片段。

为改进自动转录,计划使用说话人自适应技术,这需要识别说话人并准备声学数据。

2. 技术背景 - 系统和程序

研究需要多个系统和程序:
- 自动语音识别系统 :由标准LVCSR系统完成转录,该系统处理16kHz音频数据,转换为39个MFCC特征,应用全局或浮动CMS。声学模型使用上下文相关的三音素HMM表示41个捷克音素和7种噪声,在320小时语音上训练。解码器实时工作,词汇量约500,000个词汇,语言模型基于二元语法,使用Kneser - Ney方法平滑。
- 文档分割和说话人识别模块 :文档分割是diarisation的一部分,包括语音活动检测、说话人切换检测和说话人聚类。说话人识别模块将说话人ID或姓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值