Nutch数据的组成(一)

Nutch由以下数据组成:
1,爬行数据库( crawdb):包含所有nutch已知的url,这个url是否被爬过,如果被爬过,是什么时候。
2,链接数据库( linkdb):这里面包含的信息是每个url已知的链接信息。包括每个链接的锚点文本和源url。
3,一组段。段信息另篇再说。
4,索引库,用的是lucene的。(参见lucene)

1和2组成了webdb。webdb包含4个文件(在物理视图上是文件夹):
-- Pages, sorted by URL (pagesByURL)按URL排序的Page对象数组
-- Pages, sorted by MD5 (pagesByMD5)按MD5排序的Page对象数组
-- Links, sorted by URL(linksByURL)按URL排序的Link对象数组
-- Links, sorted by MD5(linksByMD5)按MD5排序的Link对象数组
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值