1.哈希表
哈希表(hash table),也可译为散列表。官方解释为:哈希表是根据关键码的值而进行直接访问的数据结构。
我们先不管这个官方解释到底啥意思,直观上看,数组就是一张散列表。
哈希表中的关键码就是数组的索引下标,我们可以直接通过下标来访问数组中的元素。
哈希表主要用于快速判断一个元素是否出现在集合中。只需要O(1)的时间复杂度就能做到。
2.哈希函数
将元素映射到哈希表上就涉及到了哈希函数。
比如要查询某个学生是否在一所学校中,需要将学生姓名映射为哈希表上的索引,通过查询索引下标快速判断该学生是否在这所学校中。
哈希函数如下所示,通过hashcode把目标值转化为数值,其中hashcode是一种特殊编码方式,可以将其他数据格式转化为不同的数值。
如果经过hashcode得到的数值大于哈希表的大小(tablesize),会对得到的数值再做一个取模的操作,保证一定可以映射到哈希表上。
3.哈希碰撞
如果学生数量大于哈希表的大小,或者不同元素经过hashcode得到相同的数值,那么就会出现几位学生映射到哈希表同一个索引下标的情况。
对于哈希碰撞一般有两种解决方法:拉链法和线性探测法。
3.1 拉链法
将发生冲突的元素都存储在链表中:
拉链法需要选择适当大小的哈希表,这样就不会因为数组出现空值而浪费大量内存,也不会因为冲突元素太多导致链表太长而在查找上浪费太多时间。
3.2 线性探测法
线性探测法需要依靠哈希表中的空位来解决碰撞问题,所以需要保证tablesize大于datasize。
比如小王与小李的位置冲突,那么就向下找一个空位来保存小王的位置:
线性探测法也分为好几类,这里不再探讨。
4.基于数组的相关题目
242.有效的字母异位词.
给定两个字符串 s 和 t ,编写一个函数来判断 t 是否是 s 的字母异位词。
输入: s = “anagram”, t = “nagaram”
输出: true
输入: s = “rat”, t = “car”
输出: false
我们选择数组作为哈希结构,由于题目中只有小写字母,那么就可以定义一个大小为26的数组,用于记录字符出现次数,初始化为0。
字符a-z的ASCLL码是26