9、广播新闻故事分割:结合词汇衔接与说话人角色信息的方法

广播新闻故事分割:结合词汇衔接与说话人角色信息的方法

1. 研究背景与挑战

在广播新闻的处理中,故事分割是一项重要任务。传统的基于词汇衔接的方法,如TextTiling算法,在处理广播新闻时面临一些挑战。基于稀疏矩阵的相似度度量容易受到局部现象的影响,使得利用经典的谷深度阈值方法来处理词汇衔接曲线变得困难。例如,在很短的时间间隔内可能会出现多个深谷,或者一个主题边界可能表现为多个连续的低深度谷。

2. 核心方法介绍
2.1 谷检测与分割策略
  • 谷检测 :通过检测两个峰值(局部最大值)之间的最低点作为谷,并计算谷的深度,即最低点值与左右峰值值之差的总和。如果谷深度d(i)高于给定阈值,则将xi选为边界。
  • 迭代分割算法
    1. 初始化:将整个节目作为一个连贯的片段放入集合S中。
    2. 分割:将每个片段分割成两个,分割点为得分的最小值(如果低于固定阈值)。
    3. 排除:在选定分割点周围的时间间隔内的呼吸组(BGs)将在后续迭代中被排除。
    4. 重复:将得到的片段提交到步骤2。
    5. 终止:如果无法进行分割,则停止算法。

这个算法的步骤可以用以下mermaid流程图表示:

graph TD;
    A[初始化:整个节目作为一个片段放入S] --> B[分割片段:选得分最小值为分割点];
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值