hash4j：高效的非加密哈希算法库

最新推荐文章于 2025-05-14 09:23:37 发布

邱晋力

最新推荐文章于 2025-05-14 09:23:37 发布

阅读量757

点赞数 16

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00036/article/details/146976246

hash4j：高效的非加密哈希算法库

hash4j Dynatrace hash library for Java 项目地址: https://gitcode.com/gh_mirrors/ha/hash4j

在现代软件开发中，哈希算法扮演着至关重要的角色，无论是数据结构的快速访问、数据完整性校验，还是大数据处理中的相似性分析，都离不开哈希算法。hash4j 是由 Dynatrace 开发的一个 Java 库，它集成了多种高质量的非加密哈希算法和数据结构，适用于多种场景。

项目介绍

hash4j 提供了一系列高效的非加密哈希算法，这些算法适用于多种不同的应用场景，如快速哈希计算、相似性哈希、近似去重计数等。项目旨在为开发人员提供一个稳定、高效且易于使用的哈希算法库。

项目技术分析

hash4j 实现了多种流行的哈希算法，包括 Murmur3、Wyhash、Komihash、FarmHash、PolymurHash 2.0 以及 XXH3。这些算法都经过了严格的测试，确保了算法的正确性和稳定性。hash4j 的算法实现与 Guava Hashing、Zero-Allocation Hashing、Apache Commons Codec 等其他库进行了对比测试，保证了算法的可靠性和效率。

使用方式

hash4j 提供了直接针对 Java 对象进行哈希的接口，无需将对象映射到字节数组，从而最小化了内存分配，并保持了算法的内存占用不变。

Hasher64 hasher = Hashing.komihash5_0(); // 创建一个哈希器实例
TestClass obj = new TestClass(); // 创建一个测试类实例

long hash = hasher.hashStream()
    .putInt(obj.a)
    .putLong(obj.b)
    .putString(obj.c)
    .getAsLong(); // 计算哈希值

项目技术应用场景

hash4j 的哈希算法适用于多种应用场景：

相似性哈希

相似性哈希算法能够计算集合的哈希签名，从而允许在不使用原始集合的情况下估计集合的相似性。hash4j 实现了 MinHash、SuperMinHash、SimHash 以及 FastSimHash 等算法。

Set<String> setA = ...; // 一组数据
Set<String> setB = ...; // 另一组数据

SimilarityHasher simHasher = policy.createHasher();
byte[] signatureA = simHasher.compute(ElementHashProvider.ofCollection(setA, stringHashFunc));
byte[] signatureB = simHasher.compute(ElementHashProvider.ofCollection(setB, stringHashFunc));

double estimatedJaccardSimilarity = ...; // 估计的 Jaccard 相似性

近似去重计数

在处理大数据时，精确地计数不同元素的数量需要巨大的空间。hash4j 实现了 HyperLogLog 和 UltraLogLog 等算法，用于近似地计数不同元素，大大减少了空间需求。

UltraLogLog sketch = UltraLogLog.create(12); // 创建一个 UltraLogLog 实例

// 添加元素
sketch.add(hasher.hashToLong(item));

// 合并两个草图
UltraLogLog otherSketch = ...;
sketch.merge(otherSketch);

// 估计不同元素的数量
long estimate = sketch.estimate();