41、多尺度文本分割在中文广播新闻自动故事分割中的应用

多尺度文本分割在中文广播新闻自动故事分割中的应用

1. 引言

故事分割是将文本、音频或视频划分为同质区域的任务,每个区域围绕一个中心主题。它是众多语音和语言处理任务(如主题跟踪、摘要提取、信息抽取、索引和检索)的必要预处理步骤。对于广播新闻(BN)这一信息时代的主要媒体渠道,故事分割的目标是将连续的音频/视频流分割成新闻故事。手动分割耗时巨大,因此自动分割技术至关重要。

目前,自动分割主要探索了三种线索:音频的声学/韵律线索、语音识别转录文本或视频字幕的词汇线索以及视频线索(如主播面部和颜色直方图)。基于词汇的故事分割主要在大词汇连续语音识别器(LVCSR)转录的错误文本上进行,常见方法包括词凝聚度法、使用提示短语和建模(如隐马尔可夫模型)。TextTiling 是一种经典的基于词凝聚度的方法,因其简单高效,最近被用于分割广播新闻和会议等口语文档。

然而,当前广播新闻转录文本的故事分割错误率仍然较高,主要原因是语音识别错误率高(如英语约 30%,中文普通话和阿拉伯语约 40%),以及未登录词(OOV)问题。特别是对于中文广播新闻,OOV 词大多是与主题高度相关的命名实体,会导致词汇相似度测量错误,从而降低分割性能。

近年来,子词索引单元(如音素、音节和子音段)在口语文档检索任务中被证明有助于缓解语音识别错误和 OOV 问题。对于中文,基于字符或音节索引单元的检索优于基于词的检索,因为中文具有基于字符、单音节和灵活构词结构的特点。本文提出将子词单元(字符和音节)应用于中文广播新闻的自动故事分割,并提出一种多尺度 TextTiling 方法,通过在多个尺度(词和子词尺度)测量词汇相似度,并采用表示融合和分数融合两种方案进行整合,旨在融合词的特异性和子词的鲁棒性,提

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值