基于关联数据的自训练包装器归纳方法
1. 技术现状
利用包装器归纳(Wrapper Induction,WI)从结构化网页中提取信息已得到广泛研究。早期研究聚焦于网页的DOM树表示,并学习用HTML标签包装数据记录的模板。WI面临的挑战主要涉及三个方面:有监督方法需要训练数据,无监督方法提取的值缺乏语义,以及两种方法都存在的鲁棒性问题。
- 有监督方法 :需要在示例页面上进行手动标注,以学习类似页面的包装器。不过,通过标注特定网站的页面,再将学习到的规则应用于同一领域中先前未见过的网站,可以大幅减少所需的标注数量。
- 无监督方法 :如RoadRunner和EXALG,无需任何训练数据和初始提取模板,仅假设所考虑页面具有同质性。若不假设同质性,可使用聚类技术获取同质页面。但无监督方法的缺点是,生成结果的语义需由用户进行后处理。
- 混合方法 :旨在在上述两种局限性之间找到平衡,提出一种有监督策略,利用关联数据(Linked Data,LD)自动生成训练数据。该方法包括三个步骤:字典生成、注释生成和模式提取。它建议从LD构建相关字典,然后用其自动生成页面注释。然而,这种方法的局限性在于,极其嘈杂的注释可能导致学习到错误的模式,且该策略未对生成模式的可靠性进行检查。
2. 方法概述
我们的包装器归纳方法有两个输入:一个定义要提取对象的模式,以及一组同质网页。模式指定了一组感兴趣的概念 $C = {c_1, \ldots, c_i}$ 及其属性 ${a_{i,1}, \ldots, a_
超级会员免费看
订阅专栏 解锁全文
34

被折叠的 条评论
为什么被折叠?



