大数据最全一文带你快速入门【哈希表】_哈希表快速入门(1),大数据开发面试题目

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

但我和身边的朋友讲了这么一句话,但是他还是不太理解,那我便又说

直白来讲其实数组就是一张哈希表,就如下图所示

在这里插入图片描述

二、怎么实现哈希表?需要注意什么?

对于哈希表,最多的就是去一堆数据中寻找那一两个数据,比方说在学生信息管理系统中查找一个学生的信息,就需要通过索引值去寻找,但是如何搭建它们之间的桥梁:bridge:呢?这时我们就需要用到哈希函数了(hash function),将学生的学号映射到哈希表上

1、哈希函数

哈希函数指将哈希表中元素的关键键值映射为元素存储位置的函数 百度百科

  • 通过哈希函数,把学生的学号直接映射为哈希表上的索引,然后通过此索引下标就可以快速知道这位同学是否在这所学校🏫里了
  • 这里的Key值和Value值叫做键值对,在JDK中有专业叫法叫做Entry,这个我在C++STL【容器】详解中的有做过详细介绍,大家可以去看看
  • 对于哈希函数的内部实现,它是基于一种叫**哈希码(HashCode)**的编码,把学号转换为数值,它的原理是【通过特定编码方式,可以将其他数据格式转化为不同的数值】,这样就把学生名字映射为哈希表上的索引数字了
  • 最后通过这个索引值,找到了Key值所对应的Value值,也就显示出了小明在学生管理系统中的基本信息

以下是具体映射结构原理图👇

在这里插入图片描述

2、哈希碰撞(哈希冲突)

说到哈希表,那除了哈希函数一定要讲哈希碰撞,因为如果哈希函数设计的不是很好,就会经常出现哈希碰撞的现象,这么说说不太形象,大概是这么个碰撞👇

在这里插入图片描述

  • 可以看出,此哈希表中还是存在蛮严重的哈希碰撞,有两个学生或三个学生都对应这同一个索引值,当然这只是为了讲解而画的假设,现实编程中如果设计的不严谨确实可能会出现这样的情况,那如何去解决这一碰撞呢?接下来介绍两种常见的方法
方法一:拉链法

所谓拉链法,字面意思就是将冲突的数据拉开,“链”就是【链表】的意思,将指向索引1的第一个学生的键值之后再设计一个next指针,指向下一个学生也是指向索引1的键值,这就形成了一个链表的形状,具体看下图即可👇

在这里插入图片描述

方法二:线性探测法

何所谓线性探测法,也就是成一个线状的趋势去探测,是否有下一个空位置给冲突的数据暂时存放,如果表中有空位子,就不用将他们一定要挤在一起形成一个链状了,因为链表太长是会浪费空间的,

讲得通俗一点,也就是你去一个食堂打菜,大家都喜欢在5号窗口打菜,可能是因为这个阿姨手不抖,但旁边的4号窗却只有两三人而已,有时候也会出现空位,那为什么一定要把队伍排得那么长呢,饭有的吃就不错了,万一那个阿姨手也不抖呢,何不去尝试一下😻

一样,也以图的形式展示给大家,这里要注意,只能往后找,不能往前找,可以看出下标0位置是空着的
在这里插入图片描述

三、有哪些哈希结构?

常见的三种哈希结构

  • 数组
  • set
  • map

数组没什么好说的,我们主要来说一说set和map,均以表格的形式呈现📋

1、set

集合底层实现是否有序是否可重复数值可否更改查询效率增删效率
std::set红黑树有序O(nlogn)O(nlogn)
std::multiset红黑树有序O(nlogn)O(nlogn)
std::unordered_set哈希表无序O(1)O(1)
  • 我们可以看到unordered_set它是无序的,但是set和multiset确实有序的,这个我在C++STL【容器】详解中也做过介绍✏️,因为它们和map一样,底层实现都是红黑树,即所谓的平衡二叉搜索树,所以其key值是有序的,但不可以修改,否则会导致整棵树的错乱,所以只能删除和增加

2、map

映射底层实现是否有序是否可重复数值可否更改查询效率增删效率
std::map红黑树key有序key不可重复key不可修改O(nlogn)O(nlogn)
std::multimap红黑树key有序key不可重复key不可修改O(nlogn)O(nlogn)
std::unordered_map哈希表key无序key不可重复key不可修改O(1)O(1)

四、哈希表有哪些优势和劣势?

1、优势(advantage)

  • 如果你需要在1-10这10个数中寻找5很容器,但是让你在1-4,294,967,296中找一个数却很是困难,但是哈希表可以做到,加入你用枚举去实现的话,时间复杂度可能要O(n),但是如果用哈希表去实现的话,时间复杂度却只需要O(1),大家说是不是更加优化了呢。其实现的原理便是快速判断一个元素是否出现集合里

2、劣势(disadvantage)

  • 哈希表它虽然查找很快,但是它的空间复杂度却不低,因为需要用set或map来存放数据,才能实现快速的查找,换句话来说就是牺牲了✂️空间换取了时间

五、在实际问题中怎么解决有关哈希表的问题?

1、干货讲解

什么时候用哈希表呢?【当我们需要查询一个元素是否出现过,或者一个元素是否在集合里的时候,就要第一时间想到哈希法,因其可以快速判断一个元素是否出现集合里

教大家一个小秘诀,在实际的问题中,如果您碰到了使用集合解决哈希问题的时候,优先使用unordered_set,因其查、增删的效率是最高的;如果集合是有序的,那就使用set;不仅是有序而且要重复数据的话,那就使用multiset

那么再来看一下map ,map 是一个key value的数据结构,map中,对key是有限制,我们从上表中也可以看出对value没有限制的,因为key的存储方式使用红黑树实现的,所以在做题的时候如果遇到需要使用key value结构来对应寻找数据时,就可以使用map相关的哈希表结构

之前有讲过一道题电话号码的字母组合,就是用map去存储每个数字所对应的字符串,这样就可以根据具体的数字去迅速对应到与之相对应的数据了,但是set集合却做不到这个,因为set里面放的元素只能是一个key值,当需要两数据相对应时就不要使用set了,使用map更为合适,但是选择map、multimap还是unordered_map呢,这就需要大家自己思考并根据实际题目看key值是否有序还是无序了

虽然我们没有讲数组,但设计哈希表的题目中利用数组解题的还是有,因为使用数组就不需要利用哈希映射了,这样便可以节省空间复杂度,一般数组用在数据量较小的题目中

2、具体题目简述

光说不练假把式,我们到具体题目中看个两题感受一下📇

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

…(img-yfrn5UR8-1715756394199)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值