72、网页数据提取、软件发布规划及TCP性能优化方法研究

网页数据提取、软件发布规划及TCP性能优化方法研究

网页结构化数据提取方法

在从网站提取结构化数据时,提出了一种新的信息提取方法,该方法有效利用了网页上的内容冗余性。
1. 数据提取流程
- 对于基于模板的网站,新网站 $X_i$ 属于相似网站组 $X$,会有与种子数据库中相同类型的实体。
- 扫描新网站,找到与记录属性值匹配的值,用这些匹配值学习包装器,再用包装器从其他页面提取记录。
- 不断扩展种子数据库,确保种子数据库和新网站之间有足够的重叠。可以使用Jaccard系数来衡量属性值之间的相似度,将每个值视为以空格为分隔符的单词块。
2. 实验评估
- 数据记录提取结果 :从40个页面来看,只有3个输入页面存在错误提取的实际数据记录。具体结果如下表所示:
| NO | I/P Pages | ACT | COR | WRG | MISS | FOU |
| — | — | — | — | — | — | — |
| 1 | www.jobitcom.com | 14 | 14 | 0 | 0 | 149 |
| 3 | www.jobindo.com | 10 | 10 | 0 | 0 | 52 |
| 5 | www.jobsdb.com | 50 | 50 | 0 | 0 | 152 |
- 数据记录提取和数据项对齐的精度和召回率 :相关数据如下表:
| NO | I/P Pages | ACT | COR | WRG | MISS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值