
Heritrix
文章平均质量分 88
mxdxm8899
这个作者很懒,什么都没留下…
展开
-
Heritrix1.14.3配置运行
在Heritrix1.14.3配置运行时,出现Error:找不到sun.net.www.protocol.file.FileURLConnection,网上找了一下原因是sun包是受保护的包,默认只有sun公司的软件才能使用,Eclipse使用则会报错,只需把对保护使用waring就可以了 具体的做法是: Windows -> Preferences -> Java ->...原创 2010-12-27 14:23:23 · 115 阅读 · 0 评论 -
Heritrix学习笔记
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix 在 Eclipse 中的配置、运行,最后以抓取北京林业大学网站为例,介绍如何对其进行扩展,实现只抓取特定网站的页面。 本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的...原创 2010-12-27 15:02:33 · 203 阅读 · 0 评论 -
正则表达式
正则表达式30分钟入门教程版本:v2.31 (2009-4-11) 作者:deerchao 转载请注明来源本文目标30分钟内让你明白正则表达式是什么,并对它有一些基本的了解,让你可以在自己的程序或网页里使用它。如何使用本教程最重要的是——请给我30分钟,如果你没有使用正则表达式的经验,请不要试图在30秒内入门——除非你是超人 :)别被下面那些复杂的表达式吓倒,只要跟着我一步一步...原创 2010-12-31 14:39:39 · 113 阅读 · 0 评论 -
定题爬虫
1.定题爬虫:MetaSeeker http://www.gooseeker.com/cn/node/document/front2.定题爬虫:Scrapy http://scrapy.org/原创 2011-01-11 11:32:27 · 103 阅读 · 0 评论 -
jsoup网页解析
从第三方网站上抓取一张页面,分析其中的内容,然后转换为自己的格式并持久化,这就是网络爬虫的操作步骤。目前,对网页的抓取及解析也在互联网项目中有较为广泛的应用,下面简单谈谈一些网页解析工具的使用方法。网页的爬取及解析,应该利用一现有的工具或框架去实现,而这些框架的选择,至少要考虑下面的一些因素:1、应该具有一定的兼容性,比如:原始页面中的一些语法错误、未关闭标签等,应该能够被正确解析;...原创 2011-06-29 17:40:46 · 142 阅读 · 0 评论 -
主题爬虫(转载)
聚焦爬虫,又称主题爬虫(或专业爬虫),是“面向特定主题”的一种网络爬虫程序。它与我们通常所说的爬虫(通用爬虫)的区别之处就在于,聚焦爬虫在实施网页抓取时要进行主题筛选。它尽量保证只抓取与主题相关的网页信息。 聚焦爬虫的研究核心,集中在以下两点: (一) 主题相关度计算:即计算当前已经抓下来的页面的主题相关程度。对主题相关度超过某一规定阈值的,即与主题相关的网页,将其保...原创 2011-03-14 09:49:45 · 341 阅读 · 0 评论