基于英文单词的快速HASH索引算法。

最新推荐文章于 2025-02-06 19:23:34 发布

原创

最新推荐文章于 2025-02-06 19:23:34 发布 · 5.6k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #less #测试 #文档

本文介绍了一种快速的HASH索引算法，用于大量单词查找操作，经过优化，该算法在不同字典中表现出优于查表FNV HASH的速度和分布均匀性。作者通过多次迭代改进算法，最终得出一种利用字符位置信息和加法、XOR操作相结合的方法，实现了近似完美的分布效果。

因为有项目需要，要做一个类似ispell的软件，其中会产生大量的对单词的查找操作，于是经过一翻研究，得出以下HASH算法，经过验证比一般的查表的FNV HASH算法产生的分布曲线基本没什么两样，并且在大部分的不同字典下，本算法要比查表的FNV HASH算法表现出速度更快，分布更均匀。但是因为是实验结果，所以暂时还没得出有效的数学推论，但是从大量的不同的字典测试数据来看，此算法确实效率不错。

由于以前没有涉及过相关的纯算法的设计，所以刚刚开始的时候，打算随便选用一种HASH，比如说用%除大质数，然后借此搭建一个比较强壮的测试环境，然后打算根据测试结果来改进HASH算法的模型。

最开始，我的HASH函数是这样的：
unsigned int hash_func(char *str, int len)
{
 register unsigned int sum = 0;
 register char *p = str;

 while(p - str < len)
 sum += *(p++);

 return sum % MAX_PRIME_LESS_THAN_HASH_LEN;
}
非常简单，但是这是绝对不可取的，通过这个函数，我选取了一个23w词的字典做为测试，当HASH SIZE=1024的时候，得到了以下的图象：