heritrix 判断去重 在 package org.archive.crawler.util;下面的BdbUriUniqFilter 的setadd方法 其实heritrix的抓取过的URL都保存在BDB中 然后通过boolean来判断是否加入到队列