nutch 产生的目录说明:
segments目录存储抓取的页面,下面子目录的个数与获取页面的层数有关系,我指定-depth是3层,这个目录下就有3层。
具体内容,详见http://blog.sina.com.cn/s/blog_5c5168bc0100jz12.html文章。
本文介绍 Nutch 爬虫软件生成的目录结构及其各子目录的作用,包括存储抓取页面、URL状态及外部链接等内容,有助于理解 Nutch 的工作原理。
nutch 产生的目录说明:
segments目录存储抓取的页面,下面子目录的个数与获取页面的层数有关系,我指定-depth是3层,这个目录下就有3层。
具体内容,详见http://blog.sina.com.cn/s/blog_5c5168bc0100jz12.html文章。

被折叠的 条评论
为什么被折叠?