无监督用户生成内容提取方法解析
1. 问题设定
Web 数据提取主要有两大任务,一是发现模板,二是去除模板区域中的噪声。本文聚焦于 Web 2.0 页面(如 Web 论坛、微博等)的提取任务,目标是提取用户生成内容及一些用户相关信息。
1.1 页面构成
网页是机器生成内容和用户生成内容的混合体。模板区域是网页中的基本信息单元,包含用户相关信息、用户生成内容和一些噪声。考虑内容和结构特点,模板区域可分为以下三个部分:
|区域类型|定义|内容来源|
| ---- | ---- | ---- |
|稳定区域|不同模板区域中,相同路径定位的内容相同|通常由机器自动生成,如引导链接或广告|
|半稳定区域|不同模板区域中,相同路径定位的内容差异较大|常由数据库查询或 JavaScript 生成,如用户名、注册日期等用户相关信息|
|不稳定区域|相同性质的内容由相似但不同的路径定位,这些相似路径通常存在于部分而非所有模板中|完全由用户生成,非常不规则|
1.2 问题定义
Web 2.0 数据提取的目标是识别网页中的所有模板区域,去除稳定区域,从模板区域中捕获半稳定和不稳定区域中除噪声外的内容。
1.3 相关概念
为实现提取过程,将网页建模为 DOM 树,以下是一些相关概念:
- 路径(path) :给定 DOM 树中的任何叶节点,从根到该叶节点有一个节点标签的有序序列,若序列中的每个标签后都跟随一个相应的索引,则该序列称为该树的路径。 IN(page1, path1) 若
超级会员免费看
订阅专栏 解锁全文
2598

被折叠的 条评论
为什么被折叠?



