scottxp-优快云博客

原创 Web信息自动/半自动抽取系统——演示系统

程序基于 Java6+SWT+Htmlparser+dom4j，代码量总共3000多行实现以下功能： 1.对输入网页集自动分类（其实是做聚类的工作，但是数学上不严谨） 2.自动提取模板，同时可以人工修正（提供比较方便的编辑器） 3.自动标注语义（仅针对产品信息页面） 4.自动抽取数据，输出为xml文件点击进入下载页面抽取系统图示：

2009-10-18 01:21:00 1908 4

原创对本系统后续工作者的一点建议

对后续工作者的一点建议 build 0910111. 熟悉HtmlParser Java用于解析网页的开源库主要有HtmlParser和NekoHtml，模拟浏览器自动测试的有HtmlUnit，真正解析js或提取dom节点的视觉信息还是靠Mozilla的浏览器。 NekoHtml的效率和发展状况更好，但是实践表明HtmlParser是可以满足信息抽取任务的。HtmlParser结构比较好

2009-10-11 19:28:00 1465

原创 51fe 漫画下载助手 release091008

51漫画下载助手，功能类似于MangaDowner，专用于下载 “超酷漫画连载”版块的漫画，支持自动登陆，多线程下载，纯绿色。做这个东西纯粹是国庆这两天闲的O疼。至于有用没用，这也是个见仁见智的问题，至少有比无要好吧。如果对源码感兴趣，可以在我的blog留言。本软件使用Java开发，需要预装Java运行环境！软件下载地址（纳米盘）：d.namipan.com/downfile/51F

2009-10-08 13:47:00 192351

翻译 Mining Data Records in Web Pages ——挖掘网页中的数据记录

这篇论文的引用频度比较高，应该说是基于ＤＯＭ的全自动抽取算法中比较经典的。ＭＤＲ算法的程序在作者的官网提供下载。限于篇幅，所有图表请参照原文。作者后来又发表了一篇论文，Web Data Extraction Based on Partial Tree Alignment ，将ＭＤＲ中的字符串编辑距离算法替换为树的简单匹配算法，新系统命名为ＤＥＰＴＡ。 Mining Data

2009-09-27 09:59:00 3190

翻译 A Brief Survey of Web Data Extraction Tools Web数据抽取工具综述 (续)

6.参考文献[1] ABASCAL, R., AND SANCHEZ, J. A. X-tract: Structure extraction from botanical textual descriptions. In Proceeding of the String Processing & Information Retrieval Symposium and Internationa

2009-08-28 21:41:00 2099

翻译 A Brief Survey of Web Data Extraction Tools Web数据抽取工具综述

这是02年的一篇综述，可能是信息抽取领域被引用最多的文章之一。翻译量1W汉字，内容基本是直译的，应该比Google翻译的略强一点吧。这篇文章的恶心之处在于其PDF转换为文本是乱码，所以你也别想用Google翻译了。发在这里，希望对将要做相关毕设的懒鬼们有所帮助。转载请注明出处。A Brief Survey of Web Data Extraction Tools We

2009-08-26 20:34:00 3223

原创网页信息抽取阶段性成果（续）

有些文本项，无法自动判断是否为内容项还是导航项，比如“此宝贝与实际相符”等，必须人工标注。之后人工对模板进行修正，下面是修正后再抽取的结果：标题 93GS奢华独显本神舟优雅HP650D5售3998-淘宝网宝贝详情 93GS奢华独显本神舟优雅HP650D5售3998 一口价

2009-07-21 11:15:00 981

原创网页信息抽取阶段性成果

输入为一组相似页面，输出为模板与抽取结果下面是其中一个页面的自动抽取结果，语义标注也是自动完成的源网页地址：http://item.taobao.com/auction/item_detail-0db2-b0d5cc590d53cdbea63e8376926450e6.htm 抽取结果：标题 93GS奢华独显本神舟优雅HP

2009-07-21 11:10:00 1322

原创 htmlparser 处理标签的一个bug

众所周知，Htmlparser本身有一些小bug，而且也有三年没更新了。所以现在基于java的信息抽取多转向NekoHtml。不过Htmlparser本身还是有不少优点，主要是扩展性强，其利用的设计模式值得学习。由于时间的关系，现在项目还是使用Htmlparser，以后有时间会对nekohtml进行研究。今天遇到的bug来自于对的解析。假如一个网页的部分代码如下，那么HtmlParser是

2009-07-05 23:53:00 4031 3

原创真·周工作总结二

1.工作总结本周编写了去除冗余标签与文本节点和类树编辑距离算法。但是通过阅读HTMLParser的文档和源码发现，之前没有很好的利用HTMLParser自身的特点（如，HTMLParser对DOM树的节点提供了visitor模式的基本实现），以至于代码比较冗长、难看。下周考虑重写这些代码。本周遇到的最大困难是文献[1]提出的模板生成算法的实现，在这个问题上卡了好几天。这

2009-06-29 00:27:00 1064 1

这两天没什么实质进展。主要是阅读了HtmlParser的文档和部分源码，加深了理解。写了两个方法，用于将一篇文档中的标签和标签除去，等待进一步分析。之前脑子一直很乱，原因是需求没有定好。基于分析html结构的信息抽取的抽取结果是什么？去噪页面？新闻正文？列表数据记录？数据项？之前看过的几篇论文任务目标各不相同，以至于让我对自己要实现的内容很迷茫。今天又把那几篇文章重点看了一下，思路基本确定了，就是

2009-06-24 17:46:00 721

原创周工作总结一

1概述本周主要是阅读了一些英文文献，加深对信息抽取工作的理解。在查阅的数十篇中文文献中，除了之前作为参考的一篇会议论文（经仔细推敲其算法很不严谨），比较接近我的任务目标同时叙述详尽的就只有文献[1]，其主要内容是以树编辑距离算法为基础，进行网页聚类，模板抽取，数据提取的工作。我在刚开始阅读[1]时理解起来比较困难，同时对其算法的优劣性缺乏认识，之后仔细阅读了一些相关的英文论文，思路才逐渐明朗。

2009-06-21 22:52:00 1412

翻译 A Survey of Web Information Extraction Systems——web信息抽取系统研究现状(一)

这一篇是信息抽取领域2006年比较权威的综述。其实本来翻译了2002年的一篇综述，那个字数比较少，不过一时蛋疼，把这个也搞了算了。本人中文英文都很烂，这个基本上是google自动翻译的水准，为了造福与我双语一样烂的后人放在这里。有离谱的地方请“自主规制”。原文全文共18页，大概80000印刷符号，今天半夜翻译了2500汉字。错误的地方请指出，转载请注明出处，谢谢。

2009-05-30 04:47:00 2570

Web信息自动/半自动抽取系统——演示版

Web信息自动/半自动抽取系统 build 091010 基于SimpleTreeMatching算法实现网页自动分类，自动抽取模板（附带模板编辑器），自动标注语义（仅针对部分格式化良好的页面），自动抽取数据. 包中附带了演示用的网页集. 使用Java6+SWT(JFace)+htmlparser+dom4j开发，自带精简版Jre6. 本科毕业设计内容，仅用于演示算法，有问题可以给我留言。

2009-10-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Matrox的专栏