ELF hash算法 java版

在Heritrix的 Queue-assignment-policy的设置中。 
当我们设置了在特定的域名下爬行的时候,经常会碰到永远只有一个线程在运行的情况,导致爬行十分缓慢。这是因为Heritrix默认使用HostnameQueueAssignmentPolicy来产生key值,从这个策略的名字,我们也可以很容易的看出,key跟hostname是有关系的。而事实上,这个策略正是用hostname作为key值的。因此一个域名下的所有链接都会放到同一个线程中去。 

在开发自己的搜索引起的书中提到ELF hash算法,但没有实现的例子,在网上找了下,贴代码,备份以后用 

import java.util.logging.Logger;

import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.framework.CrawlController;
import org.archive.crawler.frontier.QueueAssignmentPolicy;

public class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolicy {

	private static Logger logger = Logger.getLogger(ELFHashQueueAssignmentPolicy.class.getName());
	@Override
	public String getClassKey(CrawlController controller, CandidateURI cauri) {

		String uri = cauri.getUURI().toString();	
		long hash = ELFHash(uri);
		String a=Long.toString(hash%100);
		return a;
	}
	public long ELFHash(String strUri) {
		long hash = 0;
		long x=0;
		for(int i=0;i<strUri.length();i++)
		{
			hash = (hash<<4)+strUri.charAt(i);
			if((x=hash & 0xF0000000L) != 0)
			{
				hash^=(x>>24);
				hash &=~x;
			}
		}
		return (hash & 0x7FFFFFFF);
	}

}




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值