HashCode有多大可能重复？

最新推荐文章于 2024-08-01 09:45:00 发布

不姓贾_请叫我甄先生

最新推荐文章于 2024-08-01 09:45:00 发布

阅读量2.9k

点赞数

CC 4.0 BY-SA版权

分类专栏： HASH专题 JAVA技术文章文章标签： string hashmap class 算法 java 优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ivorytower/article/details/1474864

JAVA技术文章同时被 2 个专栏收录

12 篇文章

订阅专栏

5 篇文章

订阅专栏

本文通过实验探讨了Java中String类的hashCode方法在不同条件下产生重复整数的可能性。实验结果显示，字符串长度、特殊字符处理及大小写转换均会影响hashCode的重复率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天有同事提议用String的hashcode得到int类型作为主键。其实hashcode重复的可能性超大，下面是java的缺省算法：

public int hashCode() {

int h = hash;

if (h == 0) {

int off = offset;

char val[] = value;

int len = count;

for (int i = 0; i < len; i++) {

h = 31*h + val[off++];

}

hash = h;

}

return h;

}

但是什么情况下会重复？下面是测试代码

import java.util.HashMap;

public class Test {

static HashMap map = new HashMap();

private static char startChar = 'A';

private static char endChar = 'z';

private static int offset = endChar - startChar + 1;

private static int dup = 0;

public static void main(String[] args) {

int len = 3;

char[] chars = new char[len];

tryBit(chars, len);

System.out.println((int)Math.pow(offset, len) + ":" + dup);

}

private static void tryBit(char[] chars, int i) {

for (char j = startChar; j <= endChar; j++) {

chars[i - 1] = j;

if (i > 1)

tryBit(chars, i - 1);

else

test(chars);

}

}

private static void test(char[] chars) {

String str = new String(chars).replaceAll("[^a-zA-Z_]", "").toUpperCase();// 195112:0

//String str = new String(chars).toLowerCase();//195112:6612

//String str = new String(chars).replaceAll("[^a-zA-Z_]","");//195112:122500

//String str = new String(chars);//195112:138510

int hash = str.hashCode();

if (map.containsKey(hash)) {

String s = (String) map.get(hash);

if (!s.equals(str)) {

dup++;

System.out.println(s + ":" + str);

}

} else {

map.put(hash, str);

// System.out.println(str);

}

}

}

在A-z范围内有特殊字符，从结果看，仅仅3位长度的字符串：
不处理：　138510次重复
去掉字母意外字符：　122500次重复
所有字符转小写：6612次重复(少了很多）
去掉字母意外字符，并且转小写：没有重复！4位字符串也没见重复

不难看出：
1. 缺省实现为英文字母优化
2. 字母大小写可能导致重复

可能：
长字符串可能hashcode重复
中文字符串和特殊字符可能hashcode重复

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。