捷克广播新闻中基于文本的半自动说话人姓名提取短语研究
1. 引言
研究源于让捷克广播音频档案公开可访问和可搜索的项目需求。该任务需要多种语音识别技术:
- 大词汇量连续语音识别器(LVCSR),能识别捷克语和斯洛伐克语,并自动确定正在说的语言。
- 文档分割模块,可将文档分割成说话人同质的片段。
- 说话人识别工具。
- 后处理模块,使识别的文本更易读。
说话人识别工具需要一个说话人数据库,该数据库有两个层面:一是重要说话人和人物的列表及基本信息;二是与每个说话人相关的训练数据和对应模型。由于录音历史久、数量多,说话人数量庞大,因此需要一种无监督的方法来完成以下任务:
- 在识别文本中查找姓名。
- 判断人物是说话人还是仅被提及。
- 估计是否有该说话人朗读的录音片段。
为改进自动转录,计划使用说话人自适应技术,这需要识别说话人并准备声学数据。
2. 技术背景 - 系统和程序
研究需要多个系统和程序:
- 自动语音识别系统 :由标准LVCSR系统完成转录,该系统处理16kHz音频数据,转换为39个MFCC特征,应用全局或浮动CMS。声学模型使用上下文相关的三音素HMM表示41个捷克音素和7种噪声,在320小时语音上训练。解码器实时工作,词汇量约500,000个词汇,语言模型基于二元语法,使用Kneser - Ney方法平滑。
- 文档分割和说话人识别模块 :文档分割是diarisation的一部分,包括语音活动检测、说话人切换检测和说话人聚类。说话人识别模块将说话人ID或姓
超级会员免费看
订阅专栏 解锁全文
991

被折叠的 条评论
为什么被折叠?



