多尺度文本分割与网页垃圾邮件检测策略解析
1. 多尺度文本分割技术
在中文广播新闻的故事分割任务中,为了提升分割性能,采用了多尺度的方法,结合了词和子词(字符和音节)两种尺度。
1.1 子词重叠N - 元语法
通过子词重叠N - 元语法进行子词尺度的词汇相似度测量。对于一个包含m 个子词单元(字符或音节)的序列 ${S_1S_2S_3 \cdots S_m}$,子词重叠二元语法和三元语法分别为:
- 子词重叠二元语法:${S_1S_2 S_2S_3 S_3S_4 \cdots S_{m - 1}S_m}$
- 子词重叠三元语法:${S_1S_2S_3 S_2S_3S_4 S_3S_4S_5 \cdots S_{m - 2}S_{m - 1}S_m}$
使用子词重叠的方式是为了减少丢失子词序列中有用信息的可能性。词频向量、词汇得分和深度得分是在从自动语音识别(ASR)单词转录转换而来的子词重叠N - 元语法单元序列上计算的。
1.2 多尺度表示融合
提出了两种不同的融合策略来结合多个词汇尺度(词和子词),以提高故事分割性能。
- 表示融合 :在进行词汇相似度测量之前,将不同尺度的词汇表示合并。所有尺度的词频向量组合成一个具有 $\sum_{k = 1}^{K} I_k$ 维度的连接向量,其中 $I_k$ 表示尺度 $k$ 的维度。连接向量的公式为:
$v = [w_1 \cdot v_1, w_2 \cdot v_2, \cdots, w_K \cdot v_K]$
其中,$w_k$ 表示尺度 $k$ 的融合权重,且 $\sum
超级会员免费看
订阅专栏 解锁全文
916

被折叠的 条评论
为什么被折叠?



