35、基于网页内容聚焦爬虫的同义词音译提取及博客信息提取方法

基于网页内容聚焦爬虫的同义词音译提取及博客信息提取方法

在信息处理领域,同义词音译提取以及博客文章和评论的提取是两个重要的研究方向。前者有助于解决搜索不完整的问题,后者则能提升博客搜索的性能。下面将详细介绍相关的方法和实验结果。

同义词音译提取
  • 候选页面筛选 :通过公式(3)定义前θ个加权词Top_Wdi,j的聚合权重,将得分高的文档视为可能包含同义词音译的候选页面,舍弃其他页面。
    [
    \prod_{j = 1}^{\theta} = \text{Top_Wd}_{i,j} = \text{Score}(d)
    ]

  • 未知词提取预处理 :对于候选网页,先借助词典识别并消除已知词,再采用N - gram方法提取剩余文本字符串中的N - gram单元。N的取值范围为|TL| - 1 ≤ N ≤ |TL| + 1,因为大多数同义词音译的长度差异小于等于1。提取的N - gram单元数量通常较多,使用SPLR算法减少其数量。该算法能有效检测作为N - gram单元子序列的未知词,确定子序列为未知词后,可舍弃其超序列。

  • 同义词音译识别与确认

    • 语音比较 :使用数字化语音比较方法,基于台湾的语音系统,构建412个基本汉字读音和37个注音符号的相似度矩阵。该方法无需语料库,避免了潜在偏差。通过动态规划算法测量N - gram词与TL的相似度,公式如下:
      [
      T(i,j) =
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值