多尺度文本分割在中文广播新闻自动故事分割中的应用
1. 引言
故事分割是将文本、音频或视频划分为同质区域的任务,每个区域围绕一个中心主题。它是众多语音和语言处理任务(如主题跟踪、摘要提取、信息抽取、索引和检索)的必要预处理步骤。对于广播新闻(BN)这一信息时代的主要媒体渠道,故事分割的目标是将连续的音频/视频流分割成新闻故事。手动分割耗时巨大,因此自动分割技术至关重要。
目前,自动分割主要探索了三种线索:音频的声学/韵律线索、语音识别转录文本或视频字幕的词汇线索以及视频线索(如主播面部和颜色直方图)。基于词汇的故事分割主要在大词汇连续语音识别器(LVCSR)转录的错误文本上进行,常见方法包括词凝聚度法、使用提示短语和建模(如隐马尔可夫模型)。TextTiling 是一种经典的基于词凝聚度的方法,因其简单高效,最近被用于分割广播新闻和会议等口语文档。
然而,当前广播新闻转录文本的故事分割错误率仍然较高,主要原因是语音识别错误率高(如英语约 30%,中文普通话和阿拉伯语约 40%),以及未登录词(OOV)问题。特别是对于中文广播新闻,OOV 词大多是与主题高度相关的命名实体,会导致词汇相似度测量错误,从而降低分割性能。
近年来,子词索引单元(如音素、音节和子音段)在口语文档检索任务中被证明有助于缓解语音识别错误和 OOV 问题。对于中文,基于字符或音节索引单元的检索优于基于词的检索,因为中文具有基于字符、单音节和灵活构词结构的特点。本文提出将子词单元(字符和音节)应用于中文广播新闻的自动故事分割,并提出一种多尺度 TextTiling 方法,通过在多个尺度(词和子词尺度)测量词汇相似度,并采用表示融合和分数融合两种方案进行整合,旨在融合词的特异性和子词的鲁棒性,提
超级会员免费看
订阅专栏 解锁全文
2802

被折叠的 条评论
为什么被折叠?



