一:爬取内容存储在Hbase上,需要去hbase解析;
二:爬取流程:
1)将要爬取的url放到hdfs上
2)在nutch的bin目录下运行./nutch inject url路径
3)运行./crawl url路径 name 层数
好了,已经存放在hbase上了
三:打开hbase
scan ‘表名’
本文介绍了一种使用HBase存储爬虫数据的方法,包括爬取URL的流程:首先将待爬取的URL存放于HDFS中,接着通过Nutch工具进行处理并最终将数据保存到HBase数据库。
一:爬取内容存储在Hbase上,需要去hbase解析;
二:爬取流程:
1)将要爬取的url放到hdfs上
2)在nutch的bin目录下运行./nutch inject url路径
3)运行./crawl url路径 name 层数
好了,已经存放在hbase上了
三:打开hbase
scan ‘表名’
被折叠的 条评论
为什么被折叠?