数据结构与集合源码(1)
简单来说,数据结构,就是一种程序设计优化的方法论,研究数据的逻辑结构和物理结构以及它们之间相互关系,并对这种结构定义相应的运算,目的是加快程序的执行速度、减少内存占用的空间。
逻辑关系、存储结构、运算结构
1、 研究对象一:数据间逻辑关系
数据的逻辑结构指反映数据元素之间的逻辑关系,而与数据的存储无关,是独立于计算机的。
- 集合结构:数据结构中的元素之间除了“同属一个集合” 的相互关系外,别无其他关系。集合元素之间没有逻辑关系。
- 线性结构:数据结构中的元素存在一对一的相互关系。比如:排队。结构中必须存在唯一的首元素和唯一的尾元素。体现为:一维数组、链表、栈、队列
- 树形结构:数据结构中的元素存在一对多的相互关系。比如:家谱、文件系统、组织架构
- 图形结构:数据结构中的元素存在多对多的相互关系。比如:全国铁路网、地铁图
2、 研究对象二:数据的存储结构(或物理结构)
数据的物理结构/存储结构:包括数据元素的表示和关系的表示。数据的存储结构是逻辑结构用计算机语言的实现,它依赖于计算机语言。
结构1:顺序结构
- 顺序结构就是使用一组连续的存储单元依次存储逻辑上相邻的各个元素。
- 优点: 只需要申请存放数据本身的内存空间即可,支持下标访问,也可以实现随机访问。
- 缺点: 必须静态分配连续空间,内存空间的利用率比较低。插入或删除可能需要移动大量元素,效率比较低
数组:连续紧密排列。存在索引,查找效率高;插入、删除效率低。
结构2:链式结构
- 不使用连续的存储空间存放结构的元素,而是为每一个元素构造一个节点。节点中除了存放数据本身以外,还需要存放指向下一个节点的指针。
- 优点:不采用连续的存储空间导致内存空间利用率比较高,克服顺序存储结构中预知元素个数的缺点。插入或删除元素时,不需要移动大量的元素。
- 缺点:需要额外的空间来表达数据之间的逻辑关系,不支持下标访问和随机访问。
结构3:索引结构
- 除建立存储节点信息外,还建立附加的索引表来记录每个元素节点的地址。索引表由若干索引项组成。索引项的一般形式是:(关键字,地址)。
- 优点:用节点的索引号来确定结点存储地址,检索速度快。
- 缺点: 增加了附加的索引表,会占用较多的存储空间。在增加和删除数据时要修改索引表,因而会花费较多的时间。
结构4:散列结构
- 根据元素的关键字直接计算出该元素的存储地址,又称为Hash存储。
- 优点:检索、增加和删除结点的操作都很快。
- 缺点:不支持排序,一般比用线性表存储需要更多的空间,并且记录的关键字不能重复。
开发中:
- 线性表(一对一关系):一维数组、单向链表、双向链表、栈(先进后出)、队列(先进先出)
- 树(一对多关系):各种树。比如:二叉树、B+树(mysql中使用)、
- 图(多对多关系):
- 哈希表:HhshMap、HashSet
3、 研究对象三:运算结构
施加在数据上的运算包括运算的定义和实现。运算的定义是针对逻辑结构的,指出运算的功能;运算的实现是针对存储结构的,指出运算的具体操作步骤。
- 分配资源,建立结构,释放资源
- 插入和删除
- 获取和遍历
- 修改和排序
2. 一维数组
2.1 数组的特点
- 在Java中,数组是用来存放同一种数据类型的集合,注意只能存放同一种数据类型。
//只声明了类型和长度
数据类型[] 数组名称 = new 数据类型[数组长度];
//声明了类型,初始化赋值,大小由元素个数决定
数据类型[] 数组名称 = {数组元素1,数组元素2,......}
- 物理结构特点:
- 申请内存:一次申请一大段连续的空间,一旦申请到了,内存就固定了。
- 不能动态扩展(初始化设置过大,浪费;设置小,不够用,还需要手动扩容),插入快,删除和查找慢。
- 存储特点:所有数据存储在这个连续的空间中,数组中的每一个元素都是一个具体的数据(或对象),所有数据都紧密排布,不能有间隔。
3. 链表
3.1 链表的特点
单向链表:最基本单位是节点Node
- 逻辑结构:线性结构
- 物理结构:不要求连续的存储空间
- 存储特点:链表由一系列结点node(链表中每一个元素称为结点)组成,结点可以在代码执行过程中动态创建。每个结点包括两个部分:一个是存储数据元素的数据域,另一个是存储下一个结点地址的指针域。
单向链表:
public class NodeTest {
public static void main(String[] args) {
Node node = new Node("a");
Node node1 = new Node("b");
Node node2 = new Node("c");
node.next = node1;//记录下一个元素
node1.next = node2;
System.out.println(node2.next);
}
}
class Node{
Object Data;
Node next;
public Node() {
}
public Node(Object data){
Data = data;
}
}
双向链表:
public class NodeTest1 {
public static void main(String[] args) {
//实例化Node对象
Node node2 = new Node("BB");//使用前必须完成初始化
Node node1 =new Node(null,"AA",node2);
Node node3 = new Node(node2,"CC",null);
node1.next = node2;
node2.next = node3;
}
}
class Node {
//声明Node类并创建构造器
Node prey;
Object data;
Node next;
public Node(Node prey, Object data, Node next) {
this.prey = prey;
this.data = data;
this.next = next;
}
public Node(Object data) {
this.data = data;
}
}
二叉树:
class TreeNode(){
TreeNode left;
Object data;
Treeode right;
public TreeNode(Object data){
this.data = data;
}
public TreeNode(TreeNode left,Object data,Treeode right){
this.data = data;
this.left = left;
this.right = right;
}
}
4. 栈
4.1 栈的特点
- 栈(Stack)又称为堆栈或堆叠,是限制仅在表的一端进行插入和删除运算的线性表。
- 栈是ADT 抽象数据类型 abstract data type
- 栈按照先进后出(FILO,first in last out)的原则存储数据,先进入的数据被压入栈底,最后的数据在栈顶。每次删除(退栈)的总是删除当前栈中最后插入(进栈)的元素,而最先插入的是被放在栈的底部,要到最后才能删除。
- 核心类库中的栈结构有Stack和LinkedList。
- Stack就是顺序栈,它是Vector的子类。
- LinkedList是链式栈。
- 体现栈结构的操作方法:
- peek()方法:查看栈顶元素,不弹出
- pop()方法:弹出栈
- push(E e)方法:压入栈
- 时间复杂度:
- 索引: O(n)
- 搜索: O(n)
- 插入: O(1)
- 移除: O(1)
5. 队列
- 队列(Queue)是只允许在一端进行插入,而在另一端进行删除的运算受限的线性表。
- 队列是逻辑结构,其物理结构可以是数组,也可以是链表。
- 队列的修改原则:队列的修改是依先进先出(FIFO)的原则进行的。新来的成员总是加入队尾(即不允许"加塞"),每次离开的成员总是队列头上的(不允许中途离队),即当前"最老的"成员离队。
6. 树与二叉树
6.1 树的理解
专有名词解释:
结点:树中的数据元素都称之为结点
根节点:最上面的结点称之为根,一颗树只有一个根且由根发展而来,从另外一个角度来说,每个结点都可以认为是其子树的根
父节点:结点的上层结点,如图中,结点K的父节点是E、结点L的父节点是G
子节点:节点的下层结点,如图中,节点E的子节点是K节点、节点G的子节点是L节点
兄弟节点:具有相同父节点的结点称为兄弟节点,图中F、G、H互为兄弟节点
结点的度数:每个结点所拥有的子树的个数称之为结点的度,如结点B的度为3
树叶:度数为0的结点,也叫作终端结点,图中D、K、F、L、H、I、J都是树叶
非终端节点(或分支节点):树叶以外的节点,或度数不为0的节点。图中根、A、B、C、E、G都是
树的深度(或高度):树中结点的最大层次数,图中树的深度为4
结点的层数:从根节点到树中某结点所经路径上的分支树称为该结点的层数,根节点的层数规定为1,其余结点的层数等于其父亲结点的层数+1
同代:在同一棵树中具有相同层数的节点
6.2 二叉树的基本概念
二叉树(Binary tree)是树形结构的一个重要类型。二叉树特点是每个结点最多只能有两棵子树,且有左右之分。许多实际问题抽象出来的数据结构往往是二叉树形式,二叉树的存储结构及其算法都较为简单,因此二叉树显得特别重要。
6.3 二叉树的遍历
- 前序遍历:中左右(根左右)
- 树。前序遍历运算访问二叉树各结点是以根、左、右的顺序进行访问的。
- 中序遍历:左中右(左根右)
- 历右子树。中序遍历运算访问二叉树各结点是以左、根、右的顺序进行访问的。
- 后序遍历:左右中(左右根)
- 结点。后序遍历运算访问二叉树各结点是以左、右、根的顺序进行访问的。
遍历循序的前中后命名取决于‘中’遍历的次序。
6.4 经典二叉树
1、满二叉树: 除最后一层无任何子节点外,每一层上的所有结点都有两个子结点的二叉树。 第n层的结点数是2的n-1次方,总的结点个数是2的n次方-1
2、完全二叉树: 叶结点只能出现在最底层的两层,且最底层叶结点均处于次底层叶结点的左侧。
3、二叉排序/查找/搜索树:即为BST (binary search/sort tree)。满足如下性质: (1)若它的左子树不为空,则左子树上所有结点的值均小于它的根节点的值; (2)若它的右子树不为空,则右子树上所有结点的值均大于它的根节点的值; (3)它的左、右子树也分别为二叉排序/查找/搜索树。
对二叉查找树进行中序遍历,得到有序集合。便于检索。
4、平衡二叉树:(Self-balancing binary search tree,AVL)首先是二叉排序树,此外具有以下性质: (1)它是一棵空树或它的左右两个子树的高度差的绝对值不超过1 (2)并且左右两个子树也都是一棵平衡二叉树 (3)不要求非叶节点都有两个子结点
平衡二叉树的目的是为了减少二叉查找树的层次,提高查找速度。平衡
二叉树的常用实现有红黑树、AVL、替罪羊树、Treap、伸展树等。
6、红黑树:即Red-Black Tree。红黑树的每个节点上都有存储位表示节点的颜色,可以是红(Red)或黑(Black)。
红黑树是一种自平衡二叉查找树,红黑树是复杂的,但它的操作有着良好的最坏情况运行时间,并且在实践中是高效的:它可以在 O(log n)时间内做查找,插入和删除, 这里的 n 是树中元素的数目。
红黑树的特性:
- 每个节点是红色或者黑色
- 根节点是黑色
- 每个叶子节点(NIL)是黑色。(注意:这里叶子节点,是指为空(NIL或NULL)的叶子节点)
- 每个红色节点的两个子节点都是黑色的。(从每个叶子到根的所有路径上不能有两个连续的红色节点)
- 从任一节点到其每个叶子的所有路径都包含相同数目的黑色节点(确保没有一条路径会比其他路径长出2倍)
当我们插入或删除节点时,可能会破坏已有的红黑树,使得它不满足以上5个要求,那么此时就需要进行处理,使得它继续满足以上的5个要求:
1、recolor :将某个节点变红或变黑
2、rotation :将红黑树某些结点分支进行旋转(左旋或右旋)
红黑树可以通过红色节点和黑色节点尽可能的保证二叉树的平衡。主要是用它来存储有序的数据,它的时间复杂度是O(logN),效率非常之高。
class TreeMap<K,V> {
private transient Entry<K, V> root;
private transient int size = 0;
static final class Entry<K, V> implements Map.Entry<K, V> {
K key;
V value;
Entry<K, V> left;
Entry<K, V> right;
Entry<K, V> parent;
boolean color = false;
Entry(K key, V value, Entry<K, V> parent) {
this.key = key;
this.value = value;
this.parent = parent;
}
@Override
public K getKey() {
return key;
}
@Override
public V getValue() {
return value;
}
@Override
public V setValue(V value) {
return null;
}
}