9、广播新闻故事分割：结合词汇衔接与说话人角色信息的方法-优快云博客

本文链接：https://blog.youkuaiyun.com/alpha/article/details/149645863

广播新闻故事分割：结合词汇衔接与说话人角色信息的方法

1. 研究背景与挑战

在广播新闻的处理中，故事分割是一项重要任务。传统的基于词汇衔接的方法，如TextTiling算法，在处理广播新闻时面临一些挑战。基于稀疏矩阵的相似度度量容易受到局部现象的影响，使得利用经典的谷深度阈值方法来处理词汇衔接曲线变得困难。例如，在很短的时间间隔内可能会出现多个深谷，或者一个主题边界可能表现为多个连续的低深度谷。

2. 核心方法介绍

2.1 谷检测与分割策略

谷检测 ：通过检测两个峰值（局部最大值）之间的最低点作为谷，并计算谷的深度，即最低点值与左右峰值值之差的总和。如果谷深度d(i)高于给定阈值，则将xi选为边界。
迭代分割算法 ：
1. 初始化：将整个节目作为一个连贯的片段放入集合S中。
2. 分割：将每个片段分割成两个，分割点为得分的最小值（如果低于固定阈值）。
3. 排除：在选定分割点周围的时间间隔内的呼吸组（BGs）将在后续迭代中被排除。
4. 重复：将得到的片段提交到步骤2。
5. 终止：如果无法进行分割，则停止算法。

这个算法的步骤可以用以下mermaid流程图表示：

graph TD;
    A[初始化：整个节目作为一个片段放入S] --> B[分割片段：选得分最小值为分割点];