抓取
bin/nutch
crawl urls -dir <dir> -depth <int> -topN <int> -threads <int> >& <dir>/<file>
.log
steps in
1.读取urls目录下的站点添加到
crawldb里
bin/nutch
inject <dir>/crawldb urls
2.创建一个segments,存放到
目录下
bin/nutch
generate <dir>/crawldb <dir>20090519/segments
3.根据文件夹下生成的下载列表获取页面内容
bin/nutch
fetch <dir>/segments/<newdir>/
4.从已下载的的段数据列表里获取URL链接,更新crawldb内容
bin/nutch
updatedb dir/crawldb dir/segments/newdir
5.分析链接关系,生成反向链接
bin/nutch
invertlinks dir/linkdb -dir dir/segments
6.创建页面内容索引
bin/nutch
index dir/indexes dir/crawldb dir/linkdb dir/segments/newdir
7.删除重复数据
bin/nutch
dedup dir/indexes
8.合并索引文件
bin/nutch
merge dir/index dir/indexes
读取命令 (d for <dir>, w for a website url)
1.查看crawldb数据库
:bin/nutch
readdb dir/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。
导出
权重和相关的url信息:bin/nutch
readdb d/crawldb/ -topN 20 urldb(out_dir)
查看每个url地址的详细内容,导出
数据:bin/nutch
readdb d/crawldb/ -dump crawldb(out_dir)
查看具体的url:bin/nutch
readdb d/crawldb/ -url w
2.查看linkdb数据库
的链接情况:bin/nutch
readlinkdb d/linkdb/ -url w
导出
linkdb数据库
文件:bin/nutch
readlinkdb d/linkdb/ -dump linkdb(out_dir)
3.查看segments:bin/nutch
readseg -list -dir d/segments/ 可以看到
每一个segments的名称,产生的页面数,抓取的开始时间和结束时间,抓取数和解析数。
导出
segments:bin/nutch
readseg -dump d/segments/nd segdb(out_dir)
man:输入bin/nutch
查看