背景
由于项目中有报文排重需求,所以会将报文字符串作为分布式锁key。
考虑到报文不定长并且散列性不太好,如其作为锁key,特别是当key值过大时,使用redis进行读写都会有相对的性能下降。
-
参考文献里测试对比:
-
长度为10:写平均耗时0.053ms,读0.040ms
-
长度为20000:写平均耗时0.352ms,读0.084ms
一种简单的方案是对报文进行一次md5,然后拿来做key。
考虑到md5的性能并不高,找到了更合适的murmurhash3非加密哈希算法:
算法图例
(可以看到里面有c1, c2, n 三个很特别的常量,据算法作者Austin Appleby讲,都是他血汗地用大量测试数据调测出来的,为了不被其他好事之徒当头一暴击,他保留继续微调的权利。)
参考文档里都说murmurhash3棒棒的,但是不实践下还是不能随意拿来进献给Boss, 我找了一个代码,做了一个性能对比,测试使用了Google的guava里的Hashing.murmur3_32(),对比apache的commons-lang3的md5Hex算法。
测试源码
public class HashTest {
public static String md5Test(String primaryKey) {
return DigestUtils.md5Hex(primaryKey).substring(0, 4) + "_" + primaryKey;
}
public static String murmur3Test(String primaryKey) {
return Hashing.mur