周工作总结一

最新推荐文章于 2021-07-31 09:40:33 发布

原创最新推荐文章于 2021-07-31 09:40:33 发布 · 1.4k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#工作 #wrapper #算法 #distance #xhtml #optimization

毕设工作专栏收录该内容

7 篇文章

订阅专栏

1概述

本周主要是阅读了一些英文文献，加深对信息抽取工作的理解。在查阅的数十篇中文文献中，除了之前作为参考的一篇会议论文（经仔细推敲其算法很不严谨），比较接近我的任务目标同时叙述详尽的就只有文献[1]，其主要内容是以树编辑距离算法为基础，进行网页聚类，模板抽取，数据提取的工作。我在刚开始阅读[1]时理解起来比较困难，同时对其算法的优劣性缺乏认识，之后仔细阅读了一些相关的英文论文，思路才逐渐明朗。

2 任务分析
我的任务是编写基于模板的全自动网页信息抽取系统，大体需要分以下几个步骤：网页整理，（网页分类），网页聚类，模板提取，数据记录提取。

2.1 网页整理
网页整理的目标是，将编码统一转化为UTF8，去除注释与<script>、<style>标签，修复不合法的Tag（主要是<br>），使其满足xhtml规范，最后得到完整的DOM树。

预计修复标签使用Jtidy，解析DOM树使用HtmlParser。需要对这两个开源库进行进一步研究。

值得欣慰的是通过观察可以看出绝大多数主流网站都采用XHTML规范编写，同时也发现有个别网站没有严格遵守。

2.2 网页分类
网页分类主要是辨别主题类页面和导航类页面。后者不做处理。可以考虑通过比较超链接内的Text占整篇文档中Text比重来辨别。

这部分工作可暂时不做。

2.3 网页聚类
之前这一部分一直令人头痛。一要考虑聚类算法的时间复杂度，二要考虑相似性比较的时间复杂度，三要考虑模板的动态更新。

文献[1]对BRICH算法和CURE算法进行了比较，提出了利用平均距离的类CURE算法。[6]只是简单地指出利用自底向上的层次聚类法。还有个别文献使用K-means方法。虽然对这些方法的具体算法不熟悉，但是据了解，它们的时间复杂度均超过O(N^2)。还有一些文献没有考虑聚类的问题，默认输入为同模板页面。

在相似性比较方面，几种类树编辑距离算法([1],[5],[6],[7])占据主流，缺点是时间复杂度为O(N1*N2)。也有个别文献采用基于标签的向量模型，并计算余弦值。这种方式时间复杂度较低，但效果不够理想。

幸运的是，今天中午找到了一篇论文（[8]）,其对六种相似性比较方法，包括自顶向下的树编辑距离（[6]）、标签向量等与三种聚类方法进行了定量的实验。文献[3]也对几种相似性比较算法做了定量试验。最后可以得出结论是利用最小距离法进行聚类可以较好的满足要求。此外有几种相似性比较算法虽然进行聚类时性能出众，但是考虑到在模板提取时没有好的方案，所以我决定仍然采用文献[9]种的一种近似树编辑距离算法。同时文献[9]在模板的更新过程实质上也利用了最小距离法的思想。

2.4 模板提取
模板提取方面主要采用类似文献[9]的方式，同时增加文本数据比较的环节。首先，与[4],[5]类似，寻找页面中的重复子树（比如商品列表，搜索引擎返回页），并将其合并，形成初始wrapper。Wrapper的特点是包含？、*、N等通配符结点，比如重复的兄弟结点被合并为N结点，具体的数学定义参照[9]。之后的页面与wrapper比较相似性，认定为同模板页面后与初始wrapper合并，在提取过程中模板不断被更新。

2.5 记录提取
设定一个阀值n，一个模板至少由n个页面合并而成才进行抽取。抽取的记录分以下几类：单数据记录（通过相似页面的文本数据比较发现），多数据记录(由单页面重复子树合并发现)，正文数据（重复<p>结点下的文本数据直接合并）。

3 本周阅读的文献
[1]Web信息自动抽取技术研究

[2]A Survey of Web Information Extraction Systems

[3]A short survey of document structure similarity algorithms[4]Mining Data Recods in Web Pages

[5]web data extraction based on partial tree alignment

[6]Automatic Web news extraction using tree edit distance

[7]Web Information Extraction by HTML Tree Edit Distance Matching

[8]Clustering Template Based Web Documents

[9]Joint Optimization of Wrapper Generation and Template Detection

[10]Using Clustering and Edit Distance Techniques for Automatic Web Data Extraction

[11]VIPS:a Vision-based Page Segmentation Algorithm