基于事件模型与不均衡SVM的故事链接检测及视频时间分割方法
在信息处理领域,故事链接检测和视频时间分割是两项重要的任务。前者有助于理解新闻故事之间的关联,后者则是视频索引和检索的基础。下面将详细介绍相关的方法和实验结果。
故事链接检测
故事链接检测旨在判断两个新闻故事是否在主题上相关。过去的研究表明,多向量模型在新闻故事处理上优于单向量模型,因此本文将多向量模型作为基线模型。同时,考虑到新闻故事通常围绕事件展开,提出了一种新的事件模型。
问题定义
给定按时间顺序排列的新闻源文件序列 $S = \langle S_1, S_2, …, S_n \rangle$ 和故事对序列 $P = \langle P_1, P_2, …, P_m \rangle$,系统需要判断每个故事对中的两个故事是否主题相关。处理故事对的步骤如下:
1. 获取背景语料库 :对于当前故事对 $P_i = (s_{i1}, s_{i2})$,根据应用场景,系统在判断时可向前查看 $N$(通常为 10)个源文件,得到背景语料库 $B_i$。
2. 生成表示模型 :为故事对中的两个故事生成表示模型 $(M_{i1}, M_{i2})$,其中 $M = {(f_s, w_s) | s \geq 1}$,$f_s$ 是从故事中提取的特征,$w_s$ 是该特征在故事中的权重。
3. 计算相似度 :选择相似度函数 $F$ 计算两个模型的相似度。若 $F(M_{i1}, M_{i2})$ 大于预定义阈值,则判定两个故事主题相关。
超级会员免费看
订阅专栏 解锁全文
1138

被折叠的 条评论
为什么被折叠?



