41、多尺度文本分割在中文广播新闻自动故事分割中的应用

最新推荐文章于 2025-09-24 14:51:24 发布

jupyter5notebook

最新推荐文章于 2025-09-24 14:51:24 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：信息检索前沿探析文章标签：多尺度TextTiling 中文广播新闻故事分割

本文链接：https://blog.youkuaiyun.com/jupyter5notebook/article/details/153395556

信息检索前沿探析专栏收录该内容

73 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

多尺度文本分割在中文广播新闻自动故事分割中的应用

1. 引言

故事分割是将文本、音频或视频划分为同质区域的任务，每个区域围绕一个中心主题。它是众多语音和语言处理任务（如主题跟踪、摘要提取、信息抽取、索引和检索）的必要预处理步骤。对于广播新闻（BN）这一信息时代的主要媒体渠道，故事分割的目标是将连续的音频/视频流分割成新闻故事。手动分割耗时巨大，因此自动分割技术至关重要。

目前，自动分割主要探索了三种线索：音频的声学/韵律线索、语音识别转录文本或视频字幕的词汇线索以及视频线索（如主播面部和颜色直方图）。基于词汇的故事分割主要在大词汇连续语音识别器（LVCSR）转录的错误文本上进行，常见方法包括词凝聚度法、使用提示短语和建模（如隐马尔可夫模型）。TextTiling 是一种经典的基于词凝聚度的方法，因其简单高效，最近被用于分割广播新闻和会议等口语文档。

然而，当前广播新闻转录文本的故事分割错误率仍然较高，主要原因是语音识别错误率高（如英语约 30%，中文普通话和阿拉伯语约 40%），以及未登录词（OOV）问题。特别是对于中文广播新闻，OOV 词大多是与主题高度相关的命名实体，会导致词汇相似度测量错误，从而降低分割性能。

近年来，子词索引单元（如音素、音节和子音段）在口语文档检索任务中被证明有助于缓解语音识别错误和 OOV 问题。对于中文，基于字符或音节索引单元的检索优于基于词的检索，因为中文具有基于字符、单音节和灵活构词结构的特点。本文提出将子词单元（字符和音节）应用于中文广播新闻的自动故事分割，并提出一种多尺度 TextTiling 方法，通过在多个尺度（词和子词尺度）测量词汇相似度，并采用表示融合和分数融合两种方案进行整合，旨在融合词的特异性和子词的鲁棒性，提

会员秒杀 ¥9.9 重磅福利

超级会员免费看