哈希表的实现

1. 哈希概念

哈希(hash)又称散列,是⼀种组织数据的⽅式。从译名来看,有散乱排列的意思。本质就是通过哈希函数把关键字Key跟存储位置建⽴⼀个映射关系,查找时通过这个哈希函数计算出Key存储的位置,进行快速查找。

1.1 直接定址法

当关键字的范围比较集中时,直接定址法就是⾮常简单⾼效的方法,比如⼀组关键字都在[0,99]之间,那么我们开⼀个100个数的数组,每个关键字的值直接就是存储位置的下标。再比如⼀组关键字值都在[a,z]的小写字⺟,那么我们开⼀个26个数的数组,每个关键字acsii码-a ascii码就是存储位置的下标。也就是说直接定址法本质就是⽤关键字计算出⼀个绝对位置或者相对位置。这个方法我们在计数排序部分已经用过了,其次在string章节的下⾯OJ也⽤过了。
. - 力扣(LeetCode). - 备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。icon-default.png?t=O83Ahttps://leetcode.cn/problems/first-unique-character-in-a-string/description/
class Solution {
public:
    int firstUniqChar(string s) {

        // 每个字⺟的ascii码-'a'的ascii码作为下标映射到count数组,数组中存储出现的次数
        int count[26] = {0};

        // 统计次数
        for(auto ch : s)
        {
            count[ch-'a']++;
        }

        for(size_t i = 0; i < s.size(); ++i)
        {
            if(count[s[i]-'a'] == 1)
            return i;
        }

        return -1;
    }
};

1.2 哈希冲突

直接定址法的缺点也非常明显,当关键字的范围比较分散时,就很浪费内存甚至内存不够⽤。假设我们只有数据范围是[0, 9999]的N个值,我们要映射到⼀个M个空间的数组中(⼀般情况下M >= N),那么就要借助哈希函数(hash function)hf,关键字key被放到数组的h(key)位置,这里要注意的是h(key)计算出的值必须在[0, M)之间。
这里存在的⼀个问题就是,两个不同的key可能会映射到同⼀个位置去,这种问题我们叫做哈希冲突,或者哈希碰撞。理想情况是找出⼀个好的哈希函数避免冲突,但是实际场景中,冲突是不可避免的,所以我们尽可能设计出优秀的哈希函数,减少冲突的次数,同时也要去设计出解决冲突的⽅案。

1.3 负载因子

假设哈希表中已经映射存储了N个值,哈希表的大小为M,那么 ,负载因子有些地方也翻译为载荷因子/装载因子等,他的英⽂为load factor。负载因子越⼤,哈希冲突的概率越高,空间利⽤率越高;负载因子越小,哈希冲突的概率越低,空间利⽤率越低;

1.4 将关键字转为整数

我们将关键字映射到数组中位置,⼀般是整数好做映射计算,如果不是整数,我们要想办法转换成整数,这个细节我们后⾯代码实现中再进行细节展示。下⾯哈希函数部分我们讨论时,如果关键字不是整数,那么我们讨论的Key是关键字转换成的整数。

1.5 哈希函数

⼀个好的哈希函数应该让N个关键字被等概率的均匀的散列分布到哈希表的M个空间中,但是实际中却很难做到,但是我们要尽量往这个方向去考量设计。

1.5.1 除法散列法/除留余数法

  • 除法散列法也叫做除留余数法,顾名思义,假设哈希表的大小为M,那么通过key除以M的余数作为映射位置的下标,也就是哈希函数为:h(key) = key % M。
  • 当使用除法散列法时,要尽量避免M为某些值,如2的冥,10的冥等。如果是 2^{X},那么key %2^{X}本质相当于保留key的后X位,那么后x位相同的值,计算出的哈希值都是⼀样的,就冲突了。如: {63 , 31}看起来没有关联的值,如果M是16,也就是 2^{4},那么计算出的哈希值都是15,因为63的⼆进制后8位是 00111111,31的⼆进制后8位是 00011111。如果是 10^{X},就更明显了,保留的都是10进值的后x位,如:{112, 12312},如果M是100,也就是10^{2} ,那么计算出的哈希值都是12。
  • 当使⽤除法散列法时,建议M取不太接近2的整数次冥的⼀个质数(素数)。
  • 需要说明的是,实践中也是八仙过海,各显神通,Java的HashMap采⽤除法散列法时就是2的整数次冥做哈希表的大小M,这样玩的话,就不用取模,而可以直接位运算,相对而⾔位运算比模更高效⼀些。但是他不是单纯的去取模,比如M是2^16次方,本质是取后16位,那么用key’ =key>>16,然后把key和key' 异或的结果作为哈希值。也就是说我们映射出的值还是在[0,M)范围内,但是尽量让key所有的位都参与计算,这样映射出的哈希值更均匀⼀些即可。所以我们上面建议M取不太接近2的整数次冥的⼀个质数的理论是大多数数据结构书籍中写的理论吗,但是实践中,灵活运用,抓住本质,而不能死读书。

1.5.2 其他方法

  • 乘法散列法,全域散列法以及上面的几种方法是《算法导论》书籍中讲解的方法。
  • 《殷⼈昆 数据结构:用面向对象方法与C++语⾔描述 (第⼆版)》和《[数据结构(C语⾔版)].严蔚敏_吴伟⺠》等教材型书籍上⾯还给出了平方取中法、折叠法、随机数法、数学分析法等,这些⽅法相对更适⽤于⼀些局限的特定场景,有兴趣可以去看看这些书籍。

1.6 处理哈希冲突

实践中哈希表⼀般还是选择除法散列法作为哈希函数,当然哈希表⽆论选择什么哈希函数也避免不了冲突,那么插⼊数据时,如何解决冲突呢?主要有两种两种⽅法,开放定址法和链地址法。

1.6.1 开放定址法

在开放定址法中所有的元素都放到哈希表⾥,当⼀个关键字key⽤哈希函数计算出的位置冲突了,则按照某种规则找到⼀个没有存储数据的位置进行存储,开放定址法中负载因子⼀定是小于的。这里的规则有三种:线性探测、⼆次探测、双重探测。
线性探测:
  • 从发生冲突的位置开始,依次线性向后探测,直到寻找到下⼀个没有存储数据的位置为⽌,如果走到哈希表尾,则回绕到哈希表头的位置。
  • h(key) = hash0 = key % M, hash0位置冲突了,则线性探测公式为:hc(key,i) = hashi = (hash0 + i) % Mi = {1, 2, 3, ..., M − 1},因为负载因子小于1, 则最多探测M-1次,⼀定能找到⼀个存储key的位置。
  • 线性探测的比较简单且容易实现,线性探测的问题假设,hash0位置连续冲突,hash0,hash1,hash2位置已经存储数据了,后续映射到hash0,hash1,hash2,hash3的值都会争夺hash3位置,这种现象叫做群集/堆积。下面的⼆次探测可以⼀定程度改善这个问题。
  • 下⾯演示 {19,30,5,36,13,20,21,12} 等这⼀组值映射到M=11的表中。

h(19) = 8 h(30) = 8 h(5) = 5 h(36) = 3 h(13) = 2 h(20) = 9 h(21) = 10, h(12) = 1

二次探测:
  • 从发⽣冲突的位置开始,依次左右按⼆次方跳跃式探测,直到寻找到下⼀个没有存储数据的位置为止,如果往右⾛到哈希表尾,则回绕到哈希表头的位置;如果往左⾛到哈希表头,则回绕到哈希表尾的位置;
  • h(key) = hash0 = key % M , hash0位置冲突了,则⼆次探测公式为:hc(key,i) = hashi = (hash0 ± i 2 ) % Mi = {1, 2, 3, ..., M/2}
  • ⼆次探测当 hashi = (hash0 − i 2 )%M 时,当hashi<0时,需要hashi += M
  • 下面演示 {19,30,52,63,11,22} 等这⼀组值映射到M=11的表中。

 h(19) = 8, h(30) = 8, h(52) = 8, h(63) = 8, h(11) = 0, h(22) = 0

双重散列 

  • 第⼀个哈希函数计算出的值发生冲突,使⽤第⼆个哈希函数计算出⼀个跟key相关的偏移量值,不断往后探测,直到寻找到下⼀个没有存储数据的位置为止。
  • h1 (key) = hash0 = key % M , hash0位置冲突了,则双重探测公式为: hc(key,i) = hashi = (hash0 + i h2 (key)) % Mi = {1, 2, 3, ..., M}
  • 要求h2 (key) < M h2 (key)  且和M互为质数,有两种简单的取值方法:1、当M为2整数冥时,从[0,M-1]任选⼀个奇数;2、当M为质数时,h2 (key) h2 (key) = key % (M − 1) + 1
  • 保证 h2 (key)与M互质是因为根据固定的偏移量所寻址的所有位置将形成⼀个群,若最⼤公约数p = gcd(M, h1 (key)) > 1,那么所能寻址的位置的个数为M/P < M ,使得对于⼀个关键字来说无法充分利⽤整个散列表。举例来说,若初始探查位置为1,偏移量为3,整个散列表大小为12,那么所能寻址的位置为{1, 4, 7, 10},寻址个数为 12/gcd(12, 3) = 4
  • 下面演示 {19,30,52} 等这⼀组值映射到M=11的表中,设 h2 (key) = key%10 + 1

1.6.2 开放定址法代码实现 

开放定址法在实践中,不如下⾯讲的链地址法,因为开放定址法解决冲突不管使⽤哪种⽅法,占⽤的都是哈希表中的空间,始终存在互相影响的问题。所以开放定址法,我们简单选择线性探测实现即可。
开放定址法的哈希表结构
enum State
{
    EXIST,
    EMPTY,
    DELETE
};

template<class K, class V>
struct HashData
{
    pair<K, V> _kv;
    State _state = EMPTY;
};

template<class K, class V>
class HashTable
{
private:
    vector<HashData<K, V>> _tables;
    size_t _n = 0; // 表中存储数据个数
};
要注意的是这⾥需要给每个存储值的位置加⼀个状态标识,否则删除⼀些值以后,会影响后⾯冲突的值的查找。如下图,我们删除30,会导致查找20失败,当我们给每个位置加⼀个状态标识{EXIST,EMPTY,DELETE} ,删除30就可以不用删除值,而是把状态改为 DELETE ,那么查找20时是遇到 EMPTY 才能,就可以找到20。
h(19) = 8 h(30) = 8 h(5) = 5 h(36) = 3 h(13) = 2 h(20) = 9 h(21) =10, h(12) = 1

扩容
这⾥我们哈希表负载因子控制在0.7,当负载因子到0.7以后我们就需要扩容了,我们还是按照2倍扩容,但是同时我们要保持哈希表⼤子是⼀个质数,第⼀个是质数,2倍后就不是质数了。那么如何解决了,⼀种方案就是上⾯1.4.1除法散列中我们讲的Java HashMap的使⽤2的整数冥,但是计算时不能直接取模的改进⽅法。另外⼀种方案是sgi版本的哈希表使⽤的方法,给了⼀个近似2倍的质数表,每次去质数表获取扩容后的大小。
inline unsigned long __stl_next_prime(unsigned long n)
{
    // Note: assumes long is at least 32 bits.
    static const int __stl_num_primes = 28;
    static const unsigned long __stl_prime_list[__stl_num_primes] =
    {
         53, 97, 193, 389, 769,
         1543, 3079, 6151, 12289, 24593,
         49157, 98317, 196613, 393241, 786433,
         1572869, 3145739, 6291469, 12582917, 25165843,
         50331653, 100663319, 201326611, 402653189, 805306457,
         1610612741, 3221225473, 4294967291
    };

    const unsigned long* first = __stl_prime_list;
    const unsigned long* last = __stl_prime_list + __stl_num_primes;
    const unsigned long* pos = lower_bound(first, last, n);
    return pos == last ? *(last - 1) : *pos;
}
key不能取模的问题
当key是string/Date等类型时,key不能取模,那么我们需要给HashTable增加⼀个仿函数,这个仿函数⽀持把key转换成⼀个可以取模的整形,如果key可以转换为整形并且不容易冲突,那么这个仿函数就⽤默认参数即可,如果这个Key不能转换为整形,我们就需要自己实现⼀个仿函数传给这个参数,实现这个仿函数的要求就是尽量key的每值都参与到计算中,让不同的key转换出的整形值不同。string 做哈希表的key非常常见,所以我们可以考虑把string特化⼀下。
template<class K>
struct HashFunc
{
    size_t operator()(const K& key)
    {
        return (size_t)key;
    }
};

// 特化
template<>
struct HashFunc<string>
{
    // 字符串转换成整形,可以把字符ascii码相加即可
    // 但是直接相加的话,类似"abcd"和"bcad"这样的字符串计算出是相同的
    // 这⾥我们使⽤BKDR哈希的思路,⽤上次的计算结果去乘以⼀个质数,这个质数⼀般去31, 131等效果会⽐较好
    size_t operator()(const string& key)
    {
        size_t hash = 0;
        for (auto e : key)
        {
            hash *= 131;
            hash += e;
        }
        return hash;
    }
};

template<class K, class V, class Hash = HashFunc<K>>
class HashTable
{
public:
private:
    vector<HashData<K, V>> _tables;
    size_t _n = 0; // 表中存储数据个数
};
完整代码实现
namespace open_address
{
    enum State
    {
        EXIST,
        EMPTY,
        DELETE
    };

    template<class K, class V>
    struct HashData
    {
        pair<K, V> _kv;
        State _state = EMPTY;
    };

    template<class K, class V, class Hash = HashFunc<K>>
    class HashTable
    {
    public:
        inline unsigned long __stl_next_prime(unsigned long n)
        {
            // Note: assumes long is at least 32 bits.
            static const int __stl_num_primes = 28;
            static const unsigned long __stl_prime_list[__stl_num_primes] =
            {
                53, 97, 193, 389, 769,
                1543, 3079, 6151, 12289, 24593,
                49157, 98317, 196613, 393241, 786433,
                1572869, 3145739, 6291469, 12582917, 25165843,
                50331653, 100663319, 201326611, 402653189, 805306457,
                1610612741, 3221225473, 4294967291
            };
            const unsigned long* first = __stl_prime_list;
            const unsigned long* last = __stl_prime_list +
            __stl_num_primes;
            const unsigned long* pos = lower_bound(first, last, n);
            return pos == last ? *(last - 1) : *pos;
        }

        HashTable()
        {
            _tables.resize(__stl_next_prime(_tables.size()));
        }

        bool Insert(const pair<K, V>& kv)
        {
            if (Find(kv.first))
                return false;
            // 负载因⼦⼤于0.7就扩容
            if (_n * 10 / _tables.size() >= 7)
            {
                // 这⾥利⽤类似深拷⻉现代写法的思想插⼊后交换解决
                HashTable<K, V, Hash> newHT;
                newHT._tables.resize(__stl_next_prime(_tables.size()));
                for (size_t i = 0; i < _tables.size(); i++)
                {
                    if (_tables[i]._state == EXIST)
                    {
                        newHT.Insert(_tables[i]._kv);
                    }
                }
                _tables.swap(newHT._tables);
            }

            Hash hs;
            size_t hashi = hs(kv.first) % _tables.size();
            while (_tables[hashi]._state == EXIST)
            {
                ++hashi;
                hashi %= _tables.size();
            }
            _tables[hashi]._kv = kv;
            _tables[hashi]._state = EXIST;
            ++_n;
            return true;
    }

    HashData<K, V>* Find(const K& key)
    {
        Hash hs;
        size_t hashi = hs(key) % _tables.size();
        while (_tables[hashi]._state != EMPTY)
        {
            if (_tables[hashi]._state == EXIST && _tables[hashi]._kv.first == key)
            {
                return &_tables[hashi];
            }
            ++hashi;
            hashi %= _tables.size();
        }
        return nullptr;
    }

    bool Erase(const K& key)
    {
        HashData<K, V>* ret = Find(key);
        if (ret == nullptr)
        {
            return false;
        }
        else
        {
            ret->_state = DELETE;
            return true;
        }
    }

    private:
        vector<HashData<K, V>> _tables;
        size_t _n = 0; // 表中存储数据个数
    };
}

1.6.3 链地址法

解决冲突的思路
开放定址法中所有的元素都放到哈希表里,链地址法中所有的数据不再直接存储在哈希表中,哈希表中存储⼀个指针,没有数据映射这个位置时,这个指针为空,有多个数据映射到这个位置时,我们把这些冲突的数据链接成⼀个链表,挂在哈希表这个位置下⾯,链地址法也叫做拉链法或者哈希桶。
  • 下面演示 {19,30,5,36,13,20,21,12,24,96} 等这⼀组值映射到M=11的表中。

h(19) = 8 h(30) = 8 h(5) = 5 h(36) = 3 h(13) = 2 h(20) = 9 h(21) = 10, h(12) = 1,h(24) = 2,h(96) = 88

 

扩容 

开放定址法负载因⼦必须小于1,链地址法的负载因⼦就没有限制了,可以⼤于1。负载因子越⼤,哈希冲突的概率越⾼,空间利⽤率越⾼;负载因子越小,哈希冲突的概率越低,空间利⽤率越低;stl中unordered_xxx的最⼤负载因⼦基本控制在1,⼤于1就扩容,我们下面实现也使⽤这个方式。

极端场
如果极端场景下,某个桶特别长怎么办?其实我们可以考虑使用全域散列法,这样就不容易被针对了。但是假设不是被针对了,⽤了全域散列法,但是偶然情况下,某个桶很⻓,查找效率很低怎么办?这里在Java8的HashMap中当桶的长度超过⼀定阀值(8)时就把链表转换成红⿊树。⼀般情况下,不断扩容,单个桶很长的场景还是比较少的,下⾯我们实现就不搞这么复杂了,这个解决极端场景的思路,大家了解⼀下。

1.6.4 链地址法代码实现

namespace hash_bucket
{
    template<class K, class V>
    struct HashNode
    {
        pair<K, V> _kv;
        HashNode<K, V>* _next;
        HashNode(const pair<K, V>& kv)
        :_kv(kv)
        ,_next(nullptr)
        {}
    };

    template<class K, class V, class Hash = HashFunc<K>>
    class HashTable
    {
        typedef HashNode<K, V> Node;
        inline unsigned long __stl_next_prime(unsigned long n)
        {
            static const int __stl_num_primes = 28;
            static const unsigned long __stl_prime_list[__stl_num_primes] =
            {
                53, 97, 193, 389, 769,
                1543, 3079, 6151, 12289, 24593,
                49157, 98317, 196613, 393241, 786433,
                1572869, 3145739, 6291469, 12582917, 25165843,
                50331653, 100663319, 201326611, 402653189, 805306457,
                1610612741, 3221225473, 4294967291
            };
            const unsigned long* first = __stl_prime_list;
            const unsigned long* last = __stl_prime_list +
            __stl_num_primes;
            const unsigned long* pos = lower_bound(first, last, n);
            return pos == last ? *(last - 1) : *pos;
        }
public:
    HashTable()
    {
        _tables.resize(__stl_next_prime(_tables.size()), nullptr);
    }

    // 拷⻉构造和赋值拷⻉需要实现深拷⻉,有兴趣的同学可以⾃⾏实现
    ~HashTable()
    {
        // 依次把每个桶释放
        for (size_t i = 0; i < _tables.size(); i++)
        {
            Node* cur = _tables[i];
            while (cur)
            {
                Node* next = cur->_next;
                delete cur;
                cur = next;
            }
            _tables[i] = nullptr;
        }
    }

    bool Insert(const pair<K, V>& kv)
    {
        Hash hs;
        size_t hashi = hs(kv.first) % _tables.size();
        // 负载因⼦==1扩容
        if (_n == _tables.size())
        {
            /*HashTable<K, V> newHT;
            newHT._tables.resize(_tables.size() * 2);
            for (size_t i = 0; i < _tables.size(); i++)
            {
                Node* cur = _tables[i];
                while(cur)
                {
                    newHT.Insert(cur->_kv);
                    cur = cur->_next;
                }
            }
            _tables.swap(newHT._tables);*/

            // 这⾥如果使⽤上⾯的⽅法,扩容时创建新的结点,后⾯还要使⽤就结点,浪费了
            // 下⾯的⽅法,直接移动旧表的结点到新表,效率更好
            vector<Node*>
            newtables(__stl_next_prime(_tables.size()), nullptr);
            for (size_t i = 0; i < _tables.size(); i++)
            {
                Node* cur = _tables[i];
                while (cur)
                {
                    Node* next = cur->_next;

                    // 旧表中节点,挪动新表重新映射的位置
                    size_t hashi = hs(cur->_kv.first) % newtables.size();

                    // 头插到新表
                    cur->_next = newtables[hashi];
                    newtables[hashi] = cur;
                    cur = next;
                }
                _tables[i] = nullptr;
            }
            _tables.swap(newtables);
        }

        // 头插
        Node* newnode = new Node(kv);
        newnode->_next = _tables[hashi];
        _tables[hashi] = newnode;
        ++_n;
        return true;
    }

    Node* Find(const K& key)
    {
        Hash hs;
        size_t hashi = hs(key) % _tables.size();
        Node* cur = _tables[hashi];
        while (cur)
        {
            if (cur->_kv.first == key)
            {
                return cur;
            }
            cur = cur->_next;
        }

        return nullptr;
    }

    bool Erase(const K& key)
    {
        Hash hs;
        size_t hashi = hs(key) % _tables .size();
        Node* prev = nullptr;
        Node* cur = _tables[hashi];
        while (cur)
        {
            if (cur->_kv.first == key)
            {
                if (prev == nullptr)
                {
                    _tables[hashi] = cur->_next;
                }
                else
                {
                    prev->_next = cur->_next;
                }
                delete cur;
                --_n;
                return true;
            }
            prev = cur;
            cur = cur->_next;
        }
        return false;
    }
    private:
        vector<Node*> _tables; // 指针数组
        size_t _n = 0; // 表中存储数据个数
    };
}

本篇文章介绍了哈希表的实现的相关内容,欢迎评论交流!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值