广播新闻故事分割:结合词汇衔接与说话人角色信息的方法
1. 研究背景与挑战
在广播新闻的处理中,故事分割是一项重要任务。传统的基于词汇衔接的方法,如TextTiling算法,在处理广播新闻时面临一些挑战。基于稀疏矩阵的相似度度量容易受到局部现象的影响,使得利用经典的谷深度阈值方法来处理词汇衔接曲线变得困难。例如,在很短的时间间隔内可能会出现多个深谷,或者一个主题边界可能表现为多个连续的低深度谷。
2. 核心方法介绍
2.1 谷检测与分割策略
- 谷检测 :通过检测两个峰值(局部最大值)之间的最低点作为谷,并计算谷的深度,即最低点值与左右峰值值之差的总和。如果谷深度d(i)高于给定阈值,则将xi选为边界。
- 迭代分割算法 :
- 初始化:将整个节目作为一个连贯的片段放入集合S中。
- 分割:将每个片段分割成两个,分割点为得分的最小值(如果低于固定阈值)。
- 排除:在选定分割点周围的时间间隔内的呼吸组(BGs)将在后续迭代中被排除。
- 重复:将得到的片段提交到步骤2。
- 终止:如果无法进行分割,则停止算法。
这个算法的步骤可以用以下mermaid流程图表示:
graph TD;
A[初始化:整个节目作为一个片段放入S] --> B[分割片段:选得分最小值为分割点];
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



