- 博客(4)
- 收藏
- 关注
转载 JAVA爬虫WebCollector 2.x入门教程——基本概念
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。 目前WebCollector在Github上维护:https://github.com/CrawlScript/WebCollector 中文教程地址:http://datahref.com/book/
2015-12-25 10:55:41
1405
原创 Nutch开发者 网站发布
Nutch开发者网站提供各种Nutch教程、资讯,以及相关爬虫的资料、信息。 网站地址:http://nutcher.org/
2015-03-05 15:33:25
1965
原创 Nutch教程——导入Nutch工程,执行完整爬取 by 逼格DATA
<property name="repo.maven.org" 33 value="http://repo1.maven.org/maven2/" 34 override="false"/> 在使用本教程之前,需要满足条件: 1)有一台Linux或Linux虚拟机 2)安装JDK(推荐1.7) 3)安装Apache Ant 下载Nutch源码: 推荐使用
2015-02-09 11:30:42
20855
原创 Nutch教程——准备篇 by 逼格DATA
实在是看不下去Nutch官方的坑爹教程了,总结一套看完能懂的Nutch教程,持续更新中。 开发环境和基础: 学习Nutch,必须满足以下几个条件,缺一不可: 1)Linux环境,实在是没办法就在Windows上装Linux虚拟机。 2)熟悉JAVA。 3)有hadoop基础,能够编写hadoop下map reduce程序。 4)能够看懂Linux Shell。 下面来
2015-02-09 00:45:56
5997
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人