[原创] 为什么模除的时候一般建议选择素数来除?比如说hashtable的桶数会取一个素数...

设有一个哈希函数
H( c ) = c % N;
当N取一个合数时,最简单的例子是取2^n,比如说取2^3=8,这时候
H( 11100(二进制) ) = H( 28 ) = 4
H( 10100(二进制) ) = H( 20 )= 4

因为除以一个2^n,可以看为向左移动n位,而模除得到的余数其实就是这移掉的n位数,因此在这种情况下,除开这低位的n位数以外,剩余的高位数所有位都没有利用上,也就是说无论高位上的位取什么数,都对最后的余数不影响,从而有很多不同的数,但由于低n位是一样的,所以依然发生冲突。也就是导致冲突的几率增大。

关于为什么模除以素数就比除以合数冲突概率小?以下是个人推测:

  当除以一个素数的时候(素数定义:只有1和它本身两个因数的自然数),由于该数不是2的倍数,因此除法不能完整的说是左右多少位,如果硬要除以该素数按进行移位来算的话,可以说移掉的低多少位,不再是一个整数,那么模除将影响的不再是低多少位数,而是相比于合数来说,要影响更多位,甚至说基本上会影响一个数所有的而二进制位。从而让一个数的所有二进制位都对最后产生的模除结果发挥了作用,相比于模除一个合数仅仅是低n位发挥作用来说,模除以一个素数发生冲突的概率就会更小。

  

转载于:https://www.cnblogs.com/lordcheng/p/7344652.html

<think>嗯,用户让我用Python实现一个HashTable类来实现ADT Map。首先,我得回忆一下ADT Map的基本操作。Map通常需要支持插入、查找、删和判断键是否存在,可能还需要获大小。所以HashTable类需要实现这些方法。 接下来,哈希表的原理。哈希表通过哈希函数将键转换成索引,然后在对应的位置存储值。处理冲突的方法有很多,比如链地址法或者开放寻址法。Python中通常用链地址法,每个槽位放一个链表或者列表,这样冲突的时候可以追加到后面。 那哈希函数的设计。简单的可以用运算,比如用哈希表的大小作为。不过要注意哈希表的大小应该是一个,这样可以减少冲突。这里可能需要一个一个的方法,当扩容的时候需要用到。 然后考虑负载因子,当元素数量超过负载因子和容量的乘积时,就需要扩容。通常负载因子设为0.75比较合适。扩容的时候,需要创建一个更大的哈希表,通常是两倍左右的大小,并且重新哈希所有现有的键值对。 哈希表的大小最好是质,所以需要有一个方法来找到下一个。比如,当需要扩容时,检查当前大小的两倍是否是质,如果不是,就找比它大的下一个。 现在具体到类的结构。HashTable类应该有属性:容量(初始设为11),大小(当前存储的键值对量),负载因子阈值,以及存储(buckets),每个一个列表,里面存放键值对的元组。 初始化的时候,buckets应该是容量个空列表。插入的时候,计算哈希值找到对应的,然后遍历这个里的元素,如果键已经存在,就更新值;否则添加新的键值对。插入后检查负载因子,超过阈值就扩容。 查找的时候,同样计算哈希找到,遍历里的元素找到对应的键,返回值,找不到的话可以抛出KeyError或者返回None。 删操作类似,找到后遍历,找到对应的键然后移,同时减少大小。 还需要一个哈希函数,这里可以先用Python内置的hash()函,然后当前容量。不过要注意,如果键是自定义对象,可能需要自己实现__hash__方法,但这里假设用户使用的是基本据类型或Python处理好的对象。 测试的时候,可能需要处理各种情况,比如冲突、扩容等。比如插入多个键,导致负载因子超过阈值,触发扩容,这时候容量会变成下一个,比如23,然后重新哈希所有元素。 可能的错误点:哈希函数处理负的情况,后要确保是正。另外,删元素时,如果在遍历列表的时候修改列表,可能会出问题,所以需要正确处理。 另外,实现__contains__方法可以用in操作符,直接调用get方法检查是否存在。 最后,可能需要一些辅助方法,比如获所有键、所有值,或者遍历键值对,但根据ADT Map的基本要求,这些可能不是必须的,但用户可能需要扩展。 总结一下步骤: 1. 定义HashTable类,初始化容量、大小、buckets和负载因子阈值。 2. 实现哈希函数。 3. 实现插入、查找、删等方法。 4. 处理扩容逻辑,包括找到下一个和重新哈希。 5. 测试各个方法是否正确,特别是冲突和扩容的情况。</think>以下是用Python实现`HashTable`类来表示ADT Map的逐步说明,采用链地址法解决哈希冲突: $$ \text{哈希表结构: } TableSize \times [ (key_1, value_1) \rightarrow (key_2, value_2) \rightarrow ... ] $$ ### 1. 类结构定义 ```python class HashTable: def __init__(self, initial_capacity=11, load_factor=0.75): self.capacity = self._next_prime(initial_capacity) # 初始容量为质 self.size = 0 # 当前存储的键值对量 self.load_factor = load_factor self.buckets = [[] for _ in range(self.capacity)] # 存储的二维列表 ``` ### 2. 哈希函数实现 $$ \text{哈希函数: } h(key) = \text{hash}(key) \mod capacity $$ ```python def _hash(self, key): return hash(key) % self.capacity # 使用Python内置哈希函数 ``` ### 3. 插入操作 $$ \text{插入时间复杂度: } O(1) \text{(平均情况)} $$ ```python def put(self, key, value): index = self._hash(key) bucket = self.buckets[index] # 检查是否已存在相同key for i, (k, v) in enumerate(bucket): if k == key: bucket[i] = (key, value) return # 添加新键值对 bucket.append((key, value)) self.size += 1 # 检查是否需要扩容 if self.size / self.capacity > self.load_factor: self._resize() ``` ### 4. 动态扩容机制 $$ \text{新容量} = \text{next_prime}(2 \times \text{old\_capacity}) $$ ```python def _resize(self): new_capacity = self._next_prime(2 * self.capacity) new_buckets = [[] for _ in range(new_capacity)] # 重新哈希所有现有元素 old_buckets = self.buckets self.capacity = new_capacity self.buckets = new_buckets self.size = 0 for bucket in old_buckets: for key, value in bucket: self.put(key, value) ``` ### 5. 查找操作 $$ \text{查找时间复杂度: } O(1) \text{(平均情况)} $$ ```python def get(self, key): index = self._hash(key) bucket = self.buckets[index] for k, v in bucket: if k == key: return v raise KeyError(f"Key {key} not found") ``` ### 6.操作 $$ \text{删时间复杂度: } O(1) \text{(平均情况)} $$ ```python def remove(self, key): index = self._hash(key) bucket = self.buckets[index] for i, (k, v) in enumerate(bucket): if k == key: del bucket[i] self.size -= 1 return raise KeyError(f"Key {key} not found") ``` ### 7. 辅助方法 ```python def __contains__(self, key): try: self.get(key) return True except KeyError: return False def __len__(self): return self.size def _next_prime(self, n): # 查找大于等于n的最小质 def is_prime(num): if num < 2: return False for i in range(2, int(num**0.5)+1): if num % i == 0: return False return True while True: if is_prime(n): return n n += 1 ``` ### 使用示例 ```python ht = HashTable() ht.put("apple", 5) # 插入键值对 ht.put("banana", 10) print(ht.get("apple")) # 输出: 5 print(len(ht)) # 输出: 2 ht.remove("banana") print("banana" in ht) # 输出: False ``` ### 关键特性 1. **自动扩容**:当负载因子超过阈值时自动扩容 2. **质容量**:始终使用质作为容量,减少哈希冲突 3. **链地址法**:每个使用列表存储冲突元素 4. **完整API**:实现`put/get/remove/__len__/__contains__`等标准Map操作
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值