- 博客(13)
- 资源 (1)
- 收藏
- 关注
原创 Web信息自动/半自动抽取系统——演示系统
程序基于 Java6+SWT+Htmlparser+dom4j,代码量总共3000多行 实现以下功能: 1.对输入网页集自动分类(其实是做聚类的工作,但是数学上不严谨) 2.自动提取模板,同时可以人工修正(提供比较方便的编辑器) 3.自动标注语义(仅针对产品信息页面) 4.自动抽取数据,输出为xml文件 点击进入下载页面 抽取系统图示:
2009-10-18 01:21:00
1867
4
原创 对本系统后续工作者的一点建议
对后续工作者的一点建议 build 0910111. 熟悉HtmlParser Java用于解析网页的开源库主要有HtmlParser和NekoHtml,模拟浏览器自动测试的有HtmlUnit,真正解析js或提取dom节点的视觉信息还是靠Mozilla的浏览器。 NekoHtml的效率和发展状况更好,但是实践表明HtmlParser是可以满足信息抽取任务的。HtmlParser结构比较好
2009-10-11 19:28:00
1435
原创 51fe 漫画下载助手 release091008
51漫画下载助手,功能类似于MangaDowner,专用于下载 “超酷漫画连载”版块的漫画,支持自动登陆,多线程下载,纯绿色。做这个东西纯粹是国庆这两天闲的O疼。至于有用没用,这也是个见仁见智的问题,至少有比无要好吧。如果对源码感兴趣,可以在我的blog留言。本软件使用Java开发,需要预装Java运行环境! 软件下载地址(纳米盘):d.namipan.com/downfile/51F
2009-10-08 13:47:00
190356
翻译 Mining Data Records in Web Pages ——挖掘网页中的数据记录
这篇论文的引用频度比较高,应该说是基于DOM的全自动抽取算法中比较经典的。MDR算法的程序在作者的官网提供下载。限于篇幅,所有图表请参照原文。 作者后来又发表了一篇论文,Web Data Extraction Based on Partial Tree Alignment ,将MDR中的字符串编辑距离算法替换为树的简单匹配算法,新系统命名为DEPTA。 Mining Data
2009-09-27 09:59:00
3152
翻译 A Brief Survey of Web Data Extraction Tools Web数据抽取工具综述 (续)
6.参考文献[1] ABASCAL, R., AND SANCHEZ, J. A. X-tract: Structure extraction from botanical textual descriptions. In Proceeding of the String Processing & Information Retrieval Symposium and Internationa
2009-08-28 21:41:00
2065
翻译 A Brief Survey of Web Data Extraction Tools Web数据抽取工具综述
这是02年的一篇综述,可能是信息抽取领域被引用最多的文章之一。翻译量1W汉字,内容基本是直译的,应该比Google翻译的略强一点吧。这篇文章的恶心之处在于其PDF转换为文本是乱码,所以你也别想用Google翻译了。发在这里,希望对将要做相关毕设的懒鬼们有所帮助。转载请注明出处。A Brief Survey of Web Data Extraction Tools We
2009-08-26 20:34:00
3155
原创 网页信息抽取阶段性成果(续)
有些文本项,无法自动判断是否为内容项还是导航项,比如“此宝贝与实际相符”等,必须人工标注。 之后人工对模板进行修正,下面是修正后再抽取的结果: 标题 93GS奢华独显本神舟优雅HP650D5售3998-淘宝网 宝贝详情 93GS奢华独显本神舟优雅HP650D5售3998 一 口 价
2009-07-21 11:15:00
956
原创 网页信息抽取阶段性成果
输入为一组相似页面,输出为模板与抽取结果下面是其中一个页面的自动抽取结果,语义标注也是自动完成的 源网页地址:http://item.taobao.com/auction/item_detail-0db2-b0d5cc590d53cdbea63e8376926450e6.htm 抽取结果: 标题 93GS奢华独显本神舟优雅HP
2009-07-21 11:10:00
1298
原创 htmlparser 处理标签的一个bug
众所周知,Htmlparser本身有一些小bug,而且也有三年没更新了。所以现在基于java的信息抽取多转向NekoHtml。不过Htmlparser本身还是有不少优点,主要是扩展性强,其利用的设计模式值得学习。由于时间的关系,现在项目还是使用Htmlparser,以后有时间会对nekohtml进行研究。 今天遇到的bug来自于对的解析。假如一个网页的部分代码如下,那么HtmlParser是
2009-07-05 23:53:00
3997
3
原创 真·周工作总结 二
1.工作总结本周编写了去除冗余标签与文本节点和类树编辑距离算法。但是通过阅读HTMLParser的文档和源码发现,之前没有很好的利用HTMLParser自身的特点(如,HTMLParser对DOM树的节点提供了visitor模式的基本实现),以至于代码比较冗长、难看。下周考虑重写这些代码。本周遇到的最大困难是文献[1]提出的模板生成算法的实现,在这个问题上卡了好几天。这
2009-06-29 00:27:00
1037
1
原创 周工作总结 二
这两天没什么实质进展。主要是阅读了HtmlParser的文档和部分源码,加深了理解。写了两个方法,用于将一篇文档中的标签和标签除去,等待进一步分析。之前脑子一直很乱,原因是需求没有定好。基于分析html结构的信息抽取的抽取结果是什么?去噪页面?新闻正文?列表数据记录?数据项?之前看过的几篇论文任务目标各不相同,以至于让我对自己要实现的内容很迷茫。今天又把那几篇文章重点看了一下,思路基本确定了,就是
2009-06-24 17:46:00
698
原创 周工作总结 一
1概述本周主要是阅读了一些英文文献,加深对信息抽取工作的理解。在查阅的数十篇中文文献中,除了之前作为参考的一篇会议论文(经仔细推敲其算法很不严谨),比较接近我的任务目标同时叙述详尽的就只有文献[1],其主要内容是以树编辑距离算法为基础,进行网页聚类,模板抽取,数据提取的工作。我在刚开始阅读[1]时理解起来比较困难,同时对其算法的优劣性缺乏认识,之后仔细阅读了一些相关的英文论文,思路才逐渐明朗。
2009-06-21 22:52:00
1386
翻译 A Survey of Web Information Extraction Systems——web信息抽取系统研究现状(一)
这一篇是信息抽取领域2006年比较权威的综述。其实本来翻译了2002年的一篇综述,那个字数比较少,不过一时蛋疼,把这个也搞了算了。本人中文英文都很烂,这个基本上是google自动翻译的水准,为了造福与我双语一样烂的后人放在这里。有离谱的地方请“自主规制”。原文全文共18页,大概80000印刷符号,今天半夜翻译了2500汉字。错误的地方请指出,转载请注明出处,谢谢。
2009-05-30 04:47:00
2526
Web信息自动/半自动抽取系统——演示版
2009-10-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人