72、网页数据提取、软件发布规划及TCP性能优化方法研究-优快云博客

本文链接：https://blog.youkuaiyun.com/agile9scrum/article/details/153720162

网页数据提取、软件发布规划及TCP性能优化方法研究

网页结构化数据提取方法

在从网站提取结构化数据时，提出了一种新的信息提取方法，该方法有效利用了网页上的内容冗余性。
1. 数据提取流程
- 对于基于模板的网站，新网站 $X_i$ 属于相似网站组 $X$，会有与种子数据库中相同类型的实体。
- 扫描新网站，找到与记录属性值匹配的值，用这些匹配值学习包装器，再用包装器从其他页面提取记录。
- 不断扩展种子数据库，确保种子数据库和新网站之间有足够的重叠。可以使用Jaccard系数来衡量属性值之间的相似度，将每个值视为以空格为分隔符的单词块。
2. 实验评估
- 数据记录提取结果 ：从40个页面来看，只有3个输入页面存在错误提取的实际数据记录。具体结果如下表所示：
| NO | I/P Pages | ACT | COR | WRG | MISS | FOU |
| — | — | — | — | — | — | — |
| 1 | www.jobitcom.com | 14 | 14 | 0 | 0 | 149 |
| 3 | www.jobindo.com | 10 | 10 | 0 | 0 | 52 |
| 5 | www.jobsdb.com | 50 | 50 | 0 | 0 | 152 |
- 数据记录提取和数据项对齐的精度和召回率 ：相关数据如下表：
| NO | I/P Pages | ACT | COR | WRG | MISS