[论文简读] Web Content Information Extraction Based on DOM Tree

提出一种基于DOM树和统计信息的网页内容提取方法,适用于主题型新闻页面。通过对DOM树进行预处理并添加层级信息,利用GetRealNode算法处理特殊节点情况,并通过基于最少共同祖先的融合算法归类相似节点。结合节点特征进行打分,通过阈值区分内容块与噪声块。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【论文简读】Web Content Information Extraction Based on DOM Tree and Statistical Information

简介

文章发布于 2017 17th IEEE International Conference on Communication Technology
作者是北京邮电大学的 Xin Yu
文章提出了一种基于DOM结构将WEB页面划分为块,然后通过统计信息提取内容的方法

方法描述

该方法主要针对主题型新闻页面(以文字为主)

Page Segmentation 页面分割

对DOM树进行 pre-processing 预处理

  1. Add hierarchical information 添加分层属性
    描述DOM树中DOM节点所在的位置层级,比如 <body> 为Level 1 具体可以参照下图

    clipboard.png

  2. Traverse the DOM tree 遍历DOM树获得叶子节点集
    假设目标页面里,只有叶子节点存放着所有相关的文本信息,emmm[・_・?],这一点就是我觉得局限性非常大的一点了,因为不适用于其他类型的网站,而且文章型网页也有部分是不这么做的,也会容易把冗余信息纳入其中。
  3. Get the real node 获得真实节点
    有点一言难尽,还是看图吧
    clipboard.png
    考虑到了这种特殊情况,信息保存在a标签里,但是作者想提取的目标节点为li,所以作者提出GetRealNode方法,将这种父元素只包含了一个子元素,且子元素为叶子节点的情况,将父元素代表子元素这个叶子节点放入数据池中。
  4. Fusion based on least common ancestor 基于最少共同祖先的融合
    把结构性相似节点归纳为一块,比如上图中的li节点,具有许多相邻相似的兄弟节点,可以被关联到同一块中。
    clipboard.png
    该算法中有一个非常奇怪的点,相邻的节点难道层级会不同吗,isCommonLevel和isBrother可以再细化一些。
    划分结果如图三所示
    clipboard.png

统计信息

结合节点中的超链接文本的个数、长度以及层级,为每一个节点进行打分(判断是否是重要节点)

clipboard.png
这里作者没有讲怎么去处理分母为零的情况,举个例子,节点如果不包含任何的链接,textLinkCount+imgLinkCount=0

clipboard.png

阈值

阈值的目的就是为了区分内容块和噪声块

clipboard.png

t 是所要求出的阈值,
Xi 是内容块的评分
N 是要分成多少类,作者取值为二(目标以及噪声)
作者采用计算方差的方法来获取阈值,然后通过内容块的评分与阈值比较,区分出内容节点和噪声节点。

评价体系

作者从准确率,召回率以及一个自定义的平均函数来评价方法

clipboard.png

A是人工的提取内容
B是算法的提取内容
LCS(A,B)是指A和B的最长公共子序列

测试数据集为作者自己采集的新闻网页
效果数据如图所示

clipboard.png

clipboard.png

阅后想法

没有公开的数据集,没有算法源码,过程也这么粗糙,是怎么发上IEEE的...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值