网页数据提取、软件发布规划及TCP性能优化方法研究
网页结构化数据提取方法
在从网站提取结构化数据时,提出了一种新的信息提取方法,该方法有效利用了网页上的内容冗余性。
1. 数据提取流程
- 对于基于模板的网站,新网站 $X_i$ 属于相似网站组 $X$,会有与种子数据库中相同类型的实体。
- 扫描新网站,找到与记录属性值匹配的值,用这些匹配值学习包装器,再用包装器从其他页面提取记录。
- 不断扩展种子数据库,确保种子数据库和新网站之间有足够的重叠。可以使用Jaccard系数来衡量属性值之间的相似度,将每个值视为以空格为分隔符的单词块。
2. 实验评估
- 数据记录提取结果 :从40个页面来看,只有3个输入页面存在错误提取的实际数据记录。具体结果如下表所示:
| NO | I/P Pages | ACT | COR | WRG | MISS | FOU |
| — | — | — | — | — | — | — |
| 1 | www.jobitcom.com | 14 | 14 | 0 | 0 | 149 |
| 3 | www.jobindo.com | 10 | 10 | 0 | 0 | 52 |
| 5 | www.jobsdb.com | 50 | 50 | 0 | 0 | 152 |
- 数据记录提取和数据项对齐的精度和召回率 :相关数据如下表:
| NO | I/P Pages | ACT | COR | WRG | MISS
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



