[论文简读] Web Content Information Extraction Based on DOM Tree

最新推荐文章于 2018-11-18 21:24:19 发布

weixin_34283445

最新推荐文章于 2018-11-18 21:24:19 发布

阅读量151

点赞数

CC 4.0 BY-SA版权

原文链接：https://segmentfault.com/a/1190000015476024

提出一种基于DOM树和统计信息的网页内容提取方法，适用于主题型新闻页面。通过对DOM树进行预处理并添加层级信息，利用GetRealNode算法处理特殊节点情况，并通过基于最少共同祖先的融合算法归类相似节点。结合节点特征进行打分，通过阈值区分内容块与噪声块。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【论文简读】Web Content Information Extraction Based on DOM Tree and Statistical Information

文章发布于 2017 17th IEEE International Conference on Communication Technology
作者是北京邮电大学的 Xin Yu
文章提出了一种基于DOM结构将WEB页面划分为块，然后通过统计信息提取内容的方法

该方法主要针对主题型新闻页面（以文字为主）

对DOM树进行 pre-processing 预处理

Add hierarchical information 添加分层属性
描述DOM树中DOM节点所在的位置层级，比如 <body> 为Level 1 具体可以参照下图
Traverse the DOM tree 遍历DOM树获得叶子节点集
假设目标页面里，只有叶子节点存放着所有相关的文本信息，emmm[・_・?]，这一点就是我觉得局限性非常大的一点了，因为不适用于其他类型的网站，而且文章型网页也有部分是不这么做的，也会容易把冗余信息纳入其中。
Get the real node 获得真实节点
有点一言难尽，还是看图吧

考虑到了这种特殊情况，信息保存在a标签里，但是作者想提取的目标节点为li，所以作者提出GetRealNode方法，将这种父元素只包含了一个子元素，且子元素为叶子节点的情况，将父元素代表子元素这个叶子节点放入数据池中。
Fusion based on least common ancestor 基于最少共同祖先的融合
把结构性相似节点归纳为一块，比如上图中的li节点，具有许多相邻相似的兄弟节点，可以被关联到同一块中。

该算法中有一个非常奇怪的点，相邻的节点难道层级会不同吗，isCommonLevel和isBrother可以再细化一些。
划分结果如图三所示