【数据结构】Map与Set(2)

原创

于 2024-05-09 23:17:59 发布 · 983 阅读

46 ·

CC 4.0 BY-SA版权

文章标签：

#数据结构 #java #笔记 #经验分享

在这里插入图片描述
🧧🧧🧧🧧🧧个人主页🎈🎈🎈🎈🎈
🧧🧧🧧🧧🧧数据结构专栏🎈🎈🎈🎈🎈
🧧🧧🧧🧧🧧【数据结构】Map和Set(1)🎈🎈🎈🎈🎈

文章目录

1.Map与Set的使用

1.Map与Set的使用

在这里插入图片描述
我们还是回到这个图，我们观察这个图发现Map与Set这两个接口的底层都是由两种数据结构实现的，分别是Tree与Hash，这里的Tree就是上篇文章讲的搜索树。

1.1Map与Set的说明

Map和Set都是一个接口，但Map没有继承Collection，所以不能使用迭代器并且不能使用Iterable这个接口中的方法，反而Set是可以实现这些方法的。

1.2Map的方法说明

在这里插入图片描述
注意：

Map是一个接口，不能直接实例化对象，如果要实例化对象只能实例化其实现类TreeMap或者HashMap
Map中存放键值对的Key是唯一的，value是可以重复的
在TreeMap中插入键值对时，key不能为空，否则就会抛NullPointerException异常，value可以为空。但是HashMap的key和value都可以为空。
Map中的Key可以全部分离出来，存储到Set中来进行访问(因为Key不能重复)。
Map中的value可以全部分离出来，存储在Collection的任何一个子集合中(value可能有重复)。
Map中键值对的Key不能直接修改，value可以修改，如果要修改key，只能先将该key删除掉，然后再来进行重新插入。

1.3Set的方法说明

在这里插入图片描述
注意：

Set是继承自Collection的一个接口类
Set中只存储了key，并且要求key一定要唯一
TreeSet的底层是使用Map来实现的，其使用key与Object的一个默认对象作为键值对插入到Map中的
Set最大的功能就是对集合中的元素进行去重
实现Set接口的常用类有TreeSet和HashSet，还有一个LinkedHashSet，LinkedHashSet是在HashSet的基础上维护了一个双向链表来记录元素的插入次序。
Set中的Key不能修改，如果要修改，先将原来的删除掉，然后再重新插入
TreeSet中不能插入null的key，HashSet可以。

2.哈希表

在上述我们通过那个图观察到Map与Set的底层实现有两种一是Tree(搜索树)二是Hash(哈希表),接下来我们认识一些Hash。

2.1哈希表的概念

在顺序结构以及平衡树中，元素关键码与其存储位置之间没有对应的关系，因此在查找一个元素时，必须要经过关键码的多次比较。顺序查找时间复杂度为O(N)，平衡树中为树的高度，即O( )，搜索的效率取决于搜索过程中元素的比较次数。
理想的搜索方法：可以不经过任何比较，一次直接从表中得到要搜索的元素。如果构造一种存储结构，通过某种函数(hashFunc)使元素的存储位置与它的关键码之间能够建立一一映射的关系，那么在查找时通过该函数可以很快找到该元素。
这种方法叫哈希方法，而哈希方法用到一个叫哈希函数也叫散列表，随着慢慢演化我们称这种数据结构叫哈希表，这种结构比那些顺序结构以及搜索树在查找元素的时间复杂度要小的多，它只要O(1).

2.2哈希函数表示方法

1.直接定制法(常用)
取关键字的某个线性函数为散列地址：Hash（Key）= A*Key + B 优点：简单、均匀缺点：需要事先知道关键字的分布情况使用场景：适合查找比较小且连续的情况.
2. 除留余数法–(常用)
设散列表中允许的地址数为m，取一个不大于m，但最接近或者等于m的质数p作为除数，按照哈希函数：Hash(key) = key% p(p<=m),将关键码转换成哈希地址.
3. 平方取中法–(了解)
假设关键字为1234，对它平方就是1522756，抽取中间的3位227作为哈希地址；再比如关键字为4321，对它平方就是18671041，抽取中间的3位671(或710)作为哈希地址平方取中法比较适合：不知道关键字的分布，而位数又不是很大的情况.
4. 折叠法–(了解)
折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些)，然后将这几部分叠加求和，并按散列表表长，取后几位作为散列地址。
折叠法适合事先不需要知道关键字的分布，适合关键字位数比较多的情况
5. 随机数法–(了解)
选择一个随机函数，取关键字的随机函数值为它的哈希地址，即H(key) = random(key),其中random为随机数函数。通常应用于关键字长度不等时采用此法
6. 数学分析法–(了解)
设有n个d位数，每一位可能有r种不同的符号，这r种不同的符号在各位上出现的频率不一定相同，可能在某些位上分布比较均匀，每种符号出现的机会均等，在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小，选择其中各种符号分布均匀的若干位作为散列地址。

我们举一个例子：
数据集合{1，7，6，4，5，9}；
哈希函数设置为：hash(key) = key % capacity; capacity为存储元素底层空间总的大小。
在这里插入图片描述
从上述图中我们能发现一些问题，当出现通过哈希函数得到的结果相同的时候，比如插入14这个值 14 % 10 = 4 那么这个值放在哪里？所以这里就引申出了一个新概念“冲突”如何解决这个冲突呢？

2.3冲突的概念

对于两个数据元素的关键字和 (i != j)，有 != ，但有：Hash( ) == Hash( )，即：不同关键字通过相同哈希哈数计算出相同的哈希地址，该种现象称为哈希冲突或哈希碰撞。把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。

2.4冲突的避免

首先，我们需要明确一点，由于我们哈希表底层数组的容量往往是小于实际要存储的关键字的数量的，这就导致一个问题，冲突的发生是必然的，但我们能做的应该是尽量的降低冲突率。
在冲突的避免中最重要的就是负载因子的调节，什么是负载因子？
负载因子 = 填入表中的元素个数 / l哈希表的长度
我们一般负载因子控制在0.75左右(这不是绝对的，根据情况可以改变，因地制宜)
如果负载因子过大可以