博客文章与评论提取方法解析
在博客数据处理中,准确提取文章和评论是一项关键任务。由于文章和评论的特性不同,需要将它们进行有效分离。本文将介绍一种基于信息论的两阶段提取方法,旨在解决博客文章和评论的提取问题。
1. 博客提取框架
网页提取的典型功能是定位有用文本并过滤噪声。在博客页面中,这些有用文本被称为“主文本”,它包含作者撰写的文章和读者的评论两部分。为了准确提取文章和评论,博客提取框架分为两个阶段:定位主文本和寻找文章与评论的分隔符。
- 定位主文本 :基于DOM树结构,目标是找到包含主文本的最小子树,即“最小主文本子树”。博客页面中的其他文本和链接被视为噪声,主要包括广告、有用链接(如博客列表)和常规文本(如版权信息、作者介绍)。
- 寻找分隔符 :利用HTML格式信息,根据文章和评论不同的HTML格式分布,对主文本进行合适的划分,以找到分隔文章和评论的位置。
2. 定位主文本算法
为了准确找到主文本,我们发现主文本具有两个重要特征:
- 视觉信息 :博客的主文本在DOM树中与其兄弟节点相比,通常占据最大的视觉空间。这里主要使用HTML块的宽度作为视觉信息。
- 有效文本信息 :主文本包含的单词数量通常比其他常规文本多。通过以下公式计算有效文本信息:
[Ie = \frac{We}{Wa} \times We]
其中,$We$ 是文本中无链接的单词数量,$Wa$ 是文本中的总单词数量,$\frac{
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



