数据结构

最新推荐文章于 2024-04-12 11:01:50 发布

lianzhang925

最新推荐文章于 2024-04-12 11:01:50 发布

阅读量174

点赞数

CC 4.0 BY-SA版权

分类专栏：面试准备

本文链接：https://blog.youkuaiyun.com/lianzhang925/article/details/95103615

面试准备专栏收录该内容

2 篇文章

订阅专栏

通过学习 https://www.cnblogs.com/ysocean/p/7889153.html 总结，知识版权归原作者所有。

常见的数据结构：数组Array，栈Stack，队列Queue，链表LinkedList，树Tree，哈希表Hash，堆Heap，图Graph。

冒泡算法的运作规律如下：
①、比较相邻的元素。如果第一个比第二个大，就交换他们两个。
②、对每一对相邻元素作同样的工作，从开始第一对到结尾的最后一对。这步做完后，最后的元素会是最大的数（也就是第一波冒泡完成）。
③、针对所有的元素重复以上的步骤，除了最后一个。
④、持续每次对越来越少的元素重复上面的步骤，直到没有任何一对数字需要比较。

选择排序是每一次从待排序的数据元素中选出最小的一个元素，存放在序列的起始位置，直到全部待排序的数据元素排完。
分为三步：
①、从待排序序列中，找到关键字最小的元素
②、如果最小元素不是待排序序列的第一个元素，将其和第一个元素互换
③、从余下的 N - 1 个元素中，找出关键字最小的元素，重复(1)、(2)步，直到排序结束。

直接插入排序基本思想是每一步将一个待排序的记录，插入到前面已经排好序的有序序列中去，直到插完所有元素为止。
将序列最左边的第一个值看作已经是有序的序列。第二个值开始，与前面序列的每个值比较，插入到合适的位置上。

数组的局限性分析：
①、插入快，即元素没有按照从大到小或者某个特定的顺序排列，只是按照插入的顺序排列。
②、根据元素值来查找，查找慢。
③、根据元素值删除，我们要先找到该元素所处的位置，然后将元素后面的值整体向前面移动一个位置。所以删除慢。
④、数组一旦创建后，大小就固定了，不能动态扩展数组的元素个数。

栈（英语：stack）又称为堆栈或堆叠，栈作为一种数据结构，是一种只能在一端进行插入和删除操作的特殊线性表。它按照先进后出的原则存储数据，先进入的数据被压入栈底，最后的数据在栈顶，需要读数据的时候从栈顶开始弹出数据（最后一个数据被第一个读出来）。栈具有记忆作用，对栈的插入与删除操作中，不需要改变栈底指针。
栈是允许在同一端进行插入和删除操作的特殊线性表。允许进行插入和删除操作的一端称为栈顶(top)，另一端为栈底(bottom)；栈底固定，而栈顶浮动；栈中元素个数为零时称为空栈。插入一般称为进栈（PUSH），删除则称为退栈（POP）。
由于堆叠数据结构只允许在一端进行操作，因而按照后进先出（LIFO, Last In First Out）的原理运作。栈也称为后进先出表。

利用栈，可以实现字符串逆序。
利用栈判断分隔符是否匹配。

队列（queue）是一种特殊的线性表，特殊之处在于它只允许在表的前端（front）进行删除操作，而在表的后端（rear）进行插入操作。进行插入操作的端称为队尾，进行删除操作的端称为队头。队列中没有元素时，称为空队列。
队列的数据元素又称为队列元素。在队列中插入一个队列元素称为入队，从队列中删除一个队列元素称为出队。因为队列只允许在一端插入，在另一端删除，所以只有最早进入队列的元素才能最先从队列中删除，故队列又称为先进先出（FIFO—first in first out）线性表。
比如我们去电影院排队买票，第一个进入排队序列的都是第一个买到票离开队列的人，而最后进入排队序列排队的都是最后买到票的。
在比如在计算机操作系统中，有各种队列在安静的工作着，比如打印机在打印列队中等待打印。
队列分为：
①、单向队列（Queue）：只能在一端插入数据，另一端删除数据。
②、双向队列（Deque）：每一端都可以进行插入数据和删除数据操作。

为了避免队列不满却不能插入新的数据，我们可以让队尾指针绕回到数组开始的位置，这也称为“循环队列”。

双端队列就是一个两端都是结尾或者开头的队列，队列的每一端都可以进行插入数据项和移除数据项，这些方法可以叫做：
insertRight()、insertLeft()、removeLeft()、removeRight()
如果严格禁止调用insertLeft()和removeLeft()（或禁用右端操作），那么双端队列的功能就和前面讲的栈功能一样。
如果严格禁止调用insertLeft()和removeRight(或相反的另一对方法)，那么双端队列的功能就和单向队列一样了。

这里我们还会介绍一种队列——优先级队列。
优先级队列（priority queue）是比栈和队列更专用的数据结构，在优先级队列中，数据项按照关键字进行排序，关键字最小（或者最大）的数据项往往在队列的最前面，而数据项在插入的时候都会插入到合适的位置以确保队列的有序。
优先级队列是0个或多个元素的集合，每个元素都有一个优先权，对优先级队列执行的操作有：
（1）查找
（2）插入一个新元素
（3）删除
一般情况下，查找操作用来搜索优先权最大的元素，删除操作用来删除该元素。对于优先权相同的元素，可按先进先出次序处理或按任意优先权进行。

总结
①、栈、队列（单向队列）、优先级队列通常是用来简化某些程序操作的数据结构，而不是主要作为存储数据的。
②、在这些数据结构中，只有一个数据项可以被访问。
③、栈允许在栈顶压入（插入）数据，在栈顶弹出（移除）数据，但是只能访问最后一个插入的数据项，也就是栈顶元素。
④、队列（单向队列）只能在队尾插入数据，对头删除数据，并且只能访问对头的数据。而且队列还可以实现循环队列，它基于数组，数组下标可以从数组末端绕回到数组的开始位置。
⑤、优先级队列是有序的插入数据，并且只能访问当前元素中优先级别最大（或最小）的元素。

①、前缀表达式：操作符在操作数的前面，比如 ±543
②、中缀表达式：操作符在操作数的中间，这也是人类最容易识别的算术表达式 3+4-5
③、后缀表达式：操作符在操作数的后面，比如 34+5-

中缀表达式，这是人最容易识别的，
计算机容易识别的是前缀表达式和后缀表达式，将中缀表达式转换为前缀表达式或者后缀表达式之后，计算机能很快计算出表达式的值。

常见的链表，分别是单向链表、双端链表、有序链表、双向链表以及有迭代器的链表。

链表（Linked list）是一种常见的基础数据结构，是一种线性表，但是并不会按线性的顺序存储数据，而是在每一个节点里存到下一个节点的指针(Pointer)。
(使用链表结构可以克服数组链表需要预先知道数据大小的缺点，链表结构可以充分利用计算机内存空间，实现灵活的内存动态管理。
但是链表失去了数组随机读取的优点，同时链表由于增加了结点的指针域，空间开销比较大。)

1、单向链表
一个单链表的节点(Node)分为两个部分，第一个部分(data)保存或者显示关于节点的信息，另一个部分存储下一个节点的地址。
最后一个节点存储地址的部分，指向空值。

单向链表只可向一个方向遍历，一般查找一个节点的时候需要从第一个节点开始每次访问下一个节点，一直访问到需要的位置。
插入一个节点，我们只提供在链表头插入，只需要将当前插入的节点设置为头节点，next指向原头节点即可。
删除一个节点，我们将该节点的上一个节点的next指向该节点的下一个节点。

若用单向链表实现栈
栈的pop()方法和push()方法，对应于链表的在头部删除元素deleteHead()以及在头部增加元素addHead()。

2、双端链表 DoublePointLinkedList
只能从一个方向遍历，相对于单向列表，多了对尾节点的引用。

3、有序链表
有序链表中，数据是按照关键值有序排列的。
有序链表优于有序数组的地方是插入的速度（因为元素不需要移动），另外链表可以扩展到全部有效的使用内存，而数组只能局限于一个固定的大小中。

4、双向链表
单向链表只能从一个方向遍历，那么双向链表它可以从两个方向遍历。

上面各种链表，每个链表都包括一个LinikedList对象和许多Node对象，LinkedList对象通常包含头和尾节点的引用，分别指向链表的第一个节点和最后一个节点。
而每个节点对象通常包含数据部分data，以及对上一个节点的引用prev和下一个节点的引用next，只有下一个节点的引用称为单向链表，两个都有的称为双向链表。
next值为null则说明是链表的结尾，如果想找到某个节点，我们必须从第一个节点开始遍历，不断通过next找到下一个节点，直到找到所需要的。

前面我们介绍数组的数据结构，我们知道对于有序数组，查找很快，并介绍可以通过二分法查找，但是想要在有序数组中插入一个数据项，就必须先找到插入数据项的位置，然后将所有插入位置后面的数据项全部向后移动一位，来给新数据腾出空间，平均来讲要移动N/2次，这是很费时的。同理，删除数据也是。
然后我们介绍了另外一种数据结构——链表，链表的插入和删除很快，我们只需要改变一些引用值就行了，但是查找数据却很慢了，因为不管我们查找什么数据，都需要从链表的第一个数据项开始，遍历到找到所需数据项为止，这个查找也是平均需要比较N/2次。

树（tree）是一种抽象数据类型（ADT），用来模拟具有树状结构性质的数据集合。它是由n（n>0）个有限节点通过连接它们的边组成一个具有层次关系的集合。
一个节点有多余两个的子节点的树，称为多路树，2-3-4树和外部存储都是多路树的例子。而每个节点最多只能有两个子节点的一种形式称为二叉树。

二叉树：树的每个节点最多只能有两个子节点。并且二叉树的子节点称为“左子节点”和“右子节点”。
二叉搜索树要求：若它的左子树不空，则左子树上所有结点的值均小于它的根结点的值；若它的右子树不空，则右子树上所有结点的值均大于它的根结点的值；它的左、右子树也分别为二叉排序树。

二叉搜索树查找某个节点，我们必须从根节点开始遍历。
①、查找值比当前节点值大，则搜索右子树；
②、查找值等于当前节点值，停止搜索（终止条件）；
③、查找值小于当前节点值，则搜索左子树；

二叉搜索树插入节点，必须先找到插入的位置。
与查找操作相似，由于二叉搜索树的特殊性，待插入的节点也需要从根节点开始进行比较，小于根节点则与根节点左子树比较，反之则与右子树比较，直到左子树为空或右子树为空，则插入到相应为空的位置，在比较的过程中要注意保存父节点的信息及待插入的位置是父节点的左子树还是右子树，才能插入到正确的位置。

遍历树是根据一种特定的顺序访问树的每一个节点。比较常用的有前序遍历，中序遍历和后序遍历。而二叉搜索树最常用的是中序遍历。
①、中序遍历:左子树——》根节点——》右子树
②、前序遍历:根节点——》左子树——》右子树
③、后序遍历:左子树——》右子树——》根节点

查找最大值和最小值
要找最小值，先找根的左节点，然后一直找这个左节点的左节点，直到找到没有左节点的节点，那么这个节点就是最小值。
同理要找最大值，一直找根节点的右节点，直到没有右节点，则就是最大值。

删除节点是二叉搜索树中最复杂的操作，删除的节点有三种情况，前两种比较简单。
1、该节点是叶节点（没有子节点）
删除没有子节点的节点，只需要改变该节点的父节点引用该节点的值，即将其引用改为 null 即可。
2、该节点有一个子节点
删除有一个子节点的节点，我们只需要将其父节点原本指向该节点的引用，改为指向该节点的子节点即可。
3、该节点有两个子节点
当删除的节点存在两个子节点，那么删除之后，用另一个节点来代替被删除的节点，那么用哪一个节点来代替呢？
我们知道二叉搜索树中的节点是按照关键字来进行排列的，某个节点的关键字次高节点是它的中序遍历后继节点。用后继节点来代替删除的节点，显然该二叉搜索树还是有序的。
后继节点也就是：比删除节点大的最小节点。

总结：
树是由边和节点构成，根节点是树最顶端的节点，它没有父节点；二叉树中，最多有两个子节点；某个节点的左子树每个节点都比该节点的关键字值小，右子树的每个节点都比该节点的关键字值大，那么这种树称为二叉搜索树，其查找、插入、删除的时间复杂度都为logN；可以通过前序遍历、中序遍历、后序遍历来遍历树，前序是根节点-左子树-右子树，中序是左子树-根节点-右子树，后序是左子树-右子树-根节点；删除一个节点只需要断开指向它的引用即可；哈夫曼树是二叉树，用于数据压缩算法，最经常出现的字符编码位数最少，很少出现的字符编码位数多一些。

红-黑树有如下两个特征：
①、节点都有颜色；
②、在插入和删除的过程中，要遵循保持这些颜色的不同排列规则。
每个节点不是红色就是黑色的；
根节点总是黑色的；
如果节点是红色的，则它的子节点必须是黑色的（反之不一定）,(也就是从每个叶子到根的所有路径上不能有两个连续的红色节点)；
从根节点到叶节点或空子节点的每条路径，必须包含相同数目的黑色节点（即相同的黑色高度）。

红-黑树主要通过三种方式对平衡进行修正，改变节点颜色、左旋和右旋。

2-3-4树每个节点最多有四个字节点和三个数据项，名字中 2,3,4 的数字含义是指一个节点可能含有的子节点的个数。对于非叶节点有三种可能的情况：
①、有一个数据项的节点总是有两个子节点；
②、有二个数据项的节点总是有三个子节点；
③、有三个数据项的节点总是有四个子节点；

简而言之，非叶节点的子节点数总是比它含有的数据项多1。如果子节点个数为L，数据项个数为D，那么：L = D + 1。

为了方便描述，用从0到2的数字给数据项编号，用0到3的数字给子节点编号，如下图：
①、根是child0的子树的所有子节点的关键字值小于key0；
②、根是child1的子树的所有子节点的关键字值大于key0并且小于key1；
③、根是child2的子树的所有子节点的关键字值大于key1并且小于key2；
④、根是child3的子树的所有子节点的关键字值大于key2。

2-3-4树中一般不允许出现重复关键值。