基于网页内容聚焦爬虫的同义词音译提取及博客信息提取方法
在信息处理领域,同义词音译提取以及博客文章和评论的提取是两个重要的研究方向。前者有助于解决搜索不完整的问题,后者则能提升博客搜索的性能。下面将详细介绍相关的方法和实验结果。
同义词音译提取
-
候选页面筛选 :通过公式(3)定义前θ个加权词Top_Wdi,j的聚合权重,将得分高的文档视为可能包含同义词音译的候选页面,舍弃其他页面。
[
\prod_{j = 1}^{\theta} = \text{Top_Wd}_{i,j} = \text{Score}(d)
] -
未知词提取预处理 :对于候选网页,先借助词典识别并消除已知词,再采用N - gram方法提取剩余文本字符串中的N - gram单元。N的取值范围为|TL| - 1 ≤ N ≤ |TL| + 1,因为大多数同义词音译的长度差异小于等于1。提取的N - gram单元数量通常较多,使用SPLR算法减少其数量。该算法能有效检测作为N - gram单元子序列的未知词,确定子序列为未知词后,可舍弃其超序列。
-
同义词音译识别与确认
- 语音比较 :使用数字化语音比较方法,基于台湾的语音系统,构建412个基本汉字读音和37个注音符号的相似度矩阵。该方法无需语料库,避免了潜在偏差。通过动态规划算法测量N - gram词与TL的相似度,公式如下:
[
T(i,j) =
- 语音比较 :使用数字化语音比较方法,基于台湾的语音系统,构建412个基本汉字读音和37个注音符号的相似度矩阵。该方法无需语料库,避免了潜在偏差。通过动态规划算法测量N - gram词与TL的相似度,公式如下:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



