树与二叉树详解-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_42834104/article/details/81508932

1. 树的定义

树（Tree）是n（n >= 0）个结点的有限集。n = 0时称为空树。在任意一棵非空树中：
（1）有且仅有一个特定的称为根（Root）的结点；
（2）当 n > 1时，其余结点可分为m（m > 0）个互不相交的有限集T1、T2、……、Tm，其中每一个结合本身又是一棵树，并且称为根的子树（SubTree），如下图所示：
这里写图片描述

1.1 结点分类

树的结点包含一个数据元素及若干指向其子树的分支。结点拥有的子树数称为结点的度（Degree）。度为0的结点称为叶结点（Leaf）或终端结点；度不为0的结点称为非终端节点或分支结点。除根结点外，分支结点也称为内部结点。树的度是树内各结点的度的最大值。
这里写图片描述

1.2 结点间的关系

结点的子树的根称为该结点的孩子（Child），相应地，该结点称为孩子的双亲（Parent）。同一个双亲的孩子之间互称兄弟（Sibling）。结点的祖先是从根到该结点所经分支上的所有结点。反之，以某结点为根的子树中的任一结点都称为该结点的子孙。
这里写图片描述

1.3 树的其他相关概念

结点的层次（Level）从根开始定义起，根为第一层，根的孩子为第二层。树中结点的最大层次称为树的深度（Depth）或高度。
这里写图片描述
如果将树中结点的各子树看成从左至右是有次序的，不能互换的，则称该树为有序树，否则称为无序树。
森林（Forest）是m（m >= 0）棵互不相交的树的集合。

2. 树的抽象数据类型

ADT 树（tree）
Data
    树是由一个根节点和若干棵子树构成。树中结点具有相同数据类型及层次关系。
Operation
    InitTree(*T)：构造空树T
    DestroyTree(*T)：销毁树T
    CreateTree(*T， definition)：按definition中给出树的定义来构造树
    ClearTree(*T)：若树T存在，则将树T清为空树
    TreeEmpty(T):若T为空树，返回true，否则返回false
    TreeDepth(T)：返回T的深度
    Root(T)：返回T的根节点
    Value(T, cur_e)：cur_e是树T中一个结点，返回此结点的值
    Assign(T, cur_e, value)：给树T的结点cur_e赋值为value
    Parent(T, cur_e)：若cur_e是树T的非根结点，则返回它的双亲，否则返回空
    LeftChild(T, cur_e)：若cur_e是树T的非叶结点，则返回它的最左孩子，否则返回空
    RightSibling(T, cur_e)：若cur_e有右兄弟，则返回它的右兄弟，否则返回空
    InsertChild(*T, *p, i, c)：其中p指向树T的某个结点，i为所指结点p的度加上1，非空树c与T不想交，
        操作结果为插入c为树T中p指结点的第i棵子树
    DeleteChild(*T, *p, i)：其中p指向树T的某个结点，i为所指结点p的度，操作结点为删除T中p所指结点的第i棵子树
endADT

3. 树的存储结构

3.1 双亲表示法

我们假设以一组连续控件存储树的结点，同时在每个结点中，附设一个指示器指示其双亲结点到链表中的位置。
这里写图片描述

/* 树的双琴表示法结点结构定义 */
#define MAX_TREE_SIZZE 100
typedef int TElemType;
typedef struct PTNode {
    TElemType data;
    int parent;
} PTNode;
typedef struct {
    PTNode nodes[MAX_TREE_SIZE];
    int r, n;
} PTree;

这里写图片描述
这样的存储结构，我们可以根据结点的parent指针很容易找到它的双亲结点，所用的时间复杂度为O(1)，直到parent为-1时，表示找到了树结点的根。但是如果要知道结点的孩子是什么，则需要整个遍历。

3.2 孩子表示法

把每个结点的孩子结点排列起来，以单链表做存储结构，则n个结点有n个孩子链表，如果是叶子结点则此单链表为空。然后n个头指针又组成一个线性表，采用顺序存储结构，存放进一个一位数组中。
这里写图片描述
为此，设计两种结点结构，一个是孩子链表的孩子结点

其中child是数据域，用来存储某个结点在表头数组中的下标。next是指针域，用来存储指向某结点的下一个孩子结点的指针。
另一个是表头数组的表头结点
这里写图片描述
其中data是数据域，存储某结点的数据信息。firstchild是头指针域，存储该结点的孩子链表的头指针。
以下是我们的孩子表示法的结构定义代码

#define MAX_TREE_SIZE 100
typedef struct CTNode { /* 孩子结点 */
    int child;
    struct CTNode *next;
} *ChildPtr;
typedef struct { /* 表头结构 */
    TElemType data;
    ChildPtr firstchild;
} CTBox;
typedef struct { /* 树结构 */
    CTBox nodes[MAX_TREE_SIZE];
    int r, n;
} CTree;

3.3 孩子兄弟表示法

任意一棵树，它的结点的第一个孩子如果存在就是唯一的，它的右兄弟如果存在也是唯一的。因此，我们设计两个指针，分别指向该结点的第一个孩子和此结点的有兄弟。
这里写图片描述
其中data是数据域，firstchild为指针域，存储该结点的第一个孩子结点的存储地址，rightsib是指针域，存储该结点的右兄弟结点的存储地址。

/* 树的孩子兄弟表示法结构定义 */
typedef struct CSNode {
    TElemType data;
    struct CSNode *firstchild, *rightsib;
} CSNode, *CSTree;

这里写图片描述

4. 二叉树的定义

二叉树（Binary Tree）是n（n >= 0）个结点的有限集合，该集合或者为空集（称为空二叉树），或者由一个根节点和两棵互不相交的、分别称为根节点的左子树和右子树的二叉树组成。

4.1 二叉树特点

每个结点最多有两棵子树，所以二叉树中不存在度大于2的结点。
左子树和右子树是有顺序的，次序不能任意颠倒。
即使树中某结点只有一棵子树，也要区分它是左子树还是右子树。

二叉树具有五中基本形态：
1. 空二叉树
2. 只有一个根节点
3. 根节点只有左子树
4. 根节点只有右子树
5. 根节点既有左子树又有右子树

4.2 特殊二叉树

斜树
所有的结点都只有左子树的二叉树叫左斜树。所有结点都是只有右子树的二叉树叫右斜树。
满二叉树
在一棵二叉树中，如果所有分支结点都存在左子树和右子树，并且所有叶子都在同一层上，这样的二叉树称为满二叉树。
完全二叉树
对一棵具有n个结点的二叉树按层序编号，如果编号为i（1 <= i <= n）的结点与同样深度的满二叉树中编号为i的结点在二叉树中位置完全相同，则这棵二叉树称为完全二叉树。

完全二叉树的特点：
（1）叶子结点只能出现在最下两层
（2）最下层的叶子一定集中在左部连续位置
（3）倒数二层，若有叶子结点，一定都在右部连续位置
（4）如果结点度为1，则该结点只有左孩子，即不存在只有右子树的情况
（5）同样结点树的二叉树，完全二叉树的深度最小

5. 二叉树的性质

5.1 二叉树性质1

在二叉树的第i层上至多有 $2^{i-1}$ 个结点

5.2 二叉树性质2

深度为k的二叉树至多有 $2^k - 1$ 个结点

5.3 二叉树的性质3

对任何一棵二叉树T，如果其终端结点数为 $n_0$ ，度为2的结点数为 $n_2$ ,则 $n_0 = n_2 + 1$ 。

5.4 二叉树的性质4

具有n个结点的完全二叉树的深度为 $\lfloor log_2n \rfloor + 1$ （ $\lfloor x \rfloor$ 表示不大于x的最大整数）。

5.5 二叉树的性质5

如果对一棵有n个结点的完全二叉树的结点按层序编号，对任一结点i有：
1. 如果i = 1，则结点i是二叉树的根，无双亲；如果i > 1，则其双亲是结点 $\lfloor i/2 \rfloor$
2. 如果2i > n，则结点i无左孩子；否则其左结点是结点2i
3. 如果2i + 1 > n，则结点i无右孩子；否则其右孩子是结点2i + 1

6. 二叉树的存储结构

6.1 二叉树顺序存储结构

这里写图片描述
将二叉树按照序号存入顺序线性表，如果结点不存在，则用^表示。
一般用顺序存储结构存储完全二叉树。

6.2 二叉链表

二叉树每个结点最多有两个孩子，所以为它设计一个数据域和两个指针域是比较自然的想法，我们称这样的链表叫做二叉链表。
这里写图片描述
下面是二叉链表结点的结构定义代码：

/* 二叉树的二叉链表结点结构定义 */
typedef struct BiTNode {
    TElemType data;
    struct BiTNode *lchild, *rchild;
} BiTNode, *BiTree;

结构示意图：
这里写图片描述

7. 遍历二叉树

7.1 二叉树遍历原理

二叉树的遍历（traversing binary tree）是指从根结点触发，按照某种次序依次访问二叉树中所有结点，使得每个结点被访问一次且仅被访问一次

7.2 二叉树遍历方法

前序遍历
规则是若二叉树为空，则空操作返回，否则先访问根结点，然后前序遍历左子树，再前序遍历右子树。（ABDGHCEIF）
中序遍历
规则是若树为空，则空操作返回，否则从根结点开始（注意不是先访问根结点），中序遍历根结点的左子树，然后是访问根结点，最后中序遍历右子树。（GDHBAEICF）
后序遍历
规则是若树为空，则空操作返回，否则从左到右先叶子后结点的方式遍历访问左右子树，最后是访问根结点。（GHDBIEFCA）
层序遍历
规则是若树为空，则空操作返回，否则从树的第一层，也就是根结点开始访问，从上而下逐层遍历，在同一层中，按从左到右的顺序对结点逐个访问。（ABCDEFGHI）

7.3 前序遍历算法

/* 二叉树的前序遍历递归算法 */
void PreOrderTraverse(BiTree T) {
    if(T == NULL)
        return;
    printf("%c", T->lchild);
    PreOrderTraverse(T->lchild);
    PreOrderTraverse(T->rchild);
}

7.4 中序遍历算法

/* 二叉树的中序遍历递归算法 */
void InOrderTraverse(BiTree T) {
    if(T == NULL)
        return;
    InOrderTraverse(T->lchild);
    printf("%c", T->data);
    InOrderTraverse(T->rchild);
}

7.5 后序遍历算法

/* 后续遍历算法 */
void PostOrderTraverse(BiTree T) {
    if(T == NULL)
        return;
    PostOrderTraverse(T->lchild);
    PostOrderTraverse(T->rchild);
    printf("%c", T->data);
}

7.6 推导遍历结果

已知前序遍历和中序遍历序列，可以唯一确定一棵二叉树
已知后序遍历序列和中序遍历序列，可以唯一确定一棵二叉树。
已知前序和后序遍历，是不能确定一棵二叉树的。

8. 二叉树的建立

/* 按前序输入二叉树中结点的值 */
/* #表示空树，构造二叉链表表示二叉树 */
void CreateBiTree(BiTree *T) {
    TElemType ch;
    scanf("%c", &ch);
    if(ch == '#')
        *T = NULL;
    else {
        *T = (BiTree)malloc(sizeof(BiTNode));
        if(!*T)
            exit(OVERFLOW);
        (*T)->data = ch;
        CreateBiTree(&(*T)->lchild);
        CreateBiTree(&(*T)->rchild);
    }
}

9. 线索二叉树

9.1 线索二叉树原理

指向前驱和后继的指针称为线索，加上线索的二叉链表称为线索链表，相应的二叉树就称为线索二叉树（Threaded Binary Tree）。
这里写图片描述

ltag为0时指向该结点的左孩子，为1时指向该结点的前驱
rtag为0时指向该结点的右孩子，为1时指向该结点的后继

9.2 线索二叉树结构实现

/* 二叉树的二叉线索存储结构定义 */
typedef enum {Link, Thread} PointerTag; 
/* Link == 0表示指向左右孩子指针， Thread == 1表示指向前驱或后继的线索 */

typedef struct BiThrNode {
    TElemType data;
    struct BiThrNode *lchild, *rchild;
    PointerTag LTag;
    PointerTag RTag;
} BiThrNode, *BiThrTree;

线索化的实质就是将二叉链表中的空指针改为指向前驱或后续的线索。由于前驱和后继的信息只有在遍历该二叉树时才能得到，所以线索化的过程就是在遍历的过程中修改空指针的过程。

BiThrTree pre; /* 全局变量，始终指向刚刚访问过的结点 */
/* 中序遍历进行中序线索化 */
void InThreading(BiThrTree p) {
    if(p) {
        InThreading(p->lchild); /* 递归左子树线索化 */
        if(!p->lchild) { /* 没有左孩子 */
            p->LTag = Thread; /* 前驱线索 */
            p->lchild = pre; /* 左孩子指针指向前驱 */
        }
        if(!pre->rchild) { /* 前驱没有右孩子 */
            pre->RTag = Thread; /* 后继线索 */
            pre->rchild = p; /* 前驱右孩子指针指向后继（当前结点p） */
        }
        pre = p; /* 保持pre指向p的前驱 */
        InThreading(p->rchild); /* 递归右子树线索化 */
    }
}

有了线索二叉树后，我们对它进行遍历时发现，其实就等于是操作一个双向链表结构。
和双向链表结构一样，在二叉树线索链表上添加一个头结点，并令其lchild域的指针指向二叉树的根节点，其rchild域的指针指向中序遍历时访问的最后一个结点。反之，令二叉树的中序序列中的第一个结点中，lchild域指针和最后一个结点的rchild域指针均指向头结点。
这里写图片描述

/* T指向头结点，头结点左链lchild指向根节点，头结点右链rchild指向中序遍历的最后一个结点。 */
/* 中序遍历二叉线索链表表示的二叉树T */
Status InOrderTraverse_Thr(BiThrTree T) {
    BiThrTree p;
    p = T->lchild; /* p指向根结点 */
    while(p != T) { /* 空树或遍历结束时， p == T */
        while(p->LTag == Link) /* 当LTag == 0时循环到中序序列第一个结点 */
            p = p->lchild;
        printf("%c", p->data); /* 显示结点数据，可以更改为其它对结点操作 */
        while(p->RTag == Thread && p->rchild != T) {
            p = p->rchild;
            printf("%c", p->data);
        }
        p = p->rchild; /* p进至其右子根树 */
    }
    return OK;
}

如果所用的二叉树经需经常遍历或查找结点时需要某种遍历序列中的前驱和后继，那么采用线索二叉链表的存储结构就是非常不错的选择。

10. 树、森林与二叉树的转换

10.1 树转换为二叉树

步骤如下：
1. 加线。在所有兄弟结点之间加一条线。
2. 去线。对树中每个结点，只保留它与第一个孩子结点的连线，删除它与其他孩子结点之间的连线。
3. 层次调整。以树的根结点为轴心，将整棵树顺时针旋转一定的角度，使之结构层次分明。注意第一个孩子是二叉树结点的左孩子，兄弟转换过来的孩子是结点的右孩子。
这里写图片描述

10.2 森林转换为二叉树

把每个树转换为二叉树
第一棵二叉树不懂，从第二棵二叉树开始，依次把后一棵二叉树的根结点作为前一棵二叉树的根结点的右孩子，用线连接起来。当所有的二叉树连接起来后就得到了由森林转换来的二叉树。

10.3 二叉树转换为树

加线。若某几点的左孩子结点存在，将这个左孩子的n个右孩子结点作为此结点的孩子。将该结点与这些右孩子结点用线连接起来。
去线。删除原二叉树中所有结点与其右孩子结点的连线。
层次调整。使之结构层次分明。

10.4 二叉树转换为森林

从根结点开始，若右孩子存在，则把与右孩子结点的连线删除，再查看分离后的二叉树，若右孩子存在，则连线删除。。。直到所有右孩子连线都删除为止，得到分离的二叉树
再将每棵分离后的二叉树转换为树即可。

10.5 树与森林的遍历

树的遍历分为两种方式。
1. 一种是先根遍历树，即先访问树的根结点，然后一次先根遍历根的没棵子树。
2. 另一种是后根遍历，即先一次后根遍历每棵子树，然后再访问根结点。
森林的遍历也分为两种方式：
1. 前序遍历：先访问森林中第一棵树的根结点，然后再依次先根遍历根的每棵子树，再依次用同样方式遍历除去第一棵树的剩余树构成的森林。
2. 后序遍历：是先访问森林中第一棵树，后根遍历的方式遍历每棵子树，然后再访问根结点，再依次同样方式遍历除去第一棵树的剩余树构成的森林。

11. 赫夫曼树及其应用

11.1 赫夫曼树定义与原理

从树中一个结点到另一个结点之间的分支构成两个结点之间的路径，路径上的分支数目称作路径长度。
树的路径长度就是从树根到每一结点的路径长度之和。
带权路径长度WPL最小的二叉树称为赫夫曼树。
构造赫夫曼树的解决办法：
1. 根据给定的n个权值{ $W_1, W_2,......,W_n$ }构成n棵二叉树的集合F={ $T_1, T_2,...,T_n$ }，其中每棵二叉树 $T_i$ 中只有一个带权为 $W_i$ 根结点，其左右子树均为空。
2. 在F中选取两个根结点的权值最小的树作为左右子树构造一棵新的二叉树，且置新的二叉树的根结点的权值为其左右子树上根结点的权值之和。
3. 在F中删除这两棵树，同事将新得到的二叉树加入F中
4. 重复2和3步骤，直到F只含一棵树为止。这棵树便是赫夫曼树。

11.2 赫夫曼编码

一般地，设需要编码的字符集为{ $d_1, d_2, d_3,...,d_n$ }，各个字符在电文中出现的次数或频率集合为{ $w_1, w_2, ..., w_n$ }，以 $d_1, d_2, d_3,..., d_n$ 作为叶子结点，以 $w_1, w_2,...w_n$ 作为相应叶子结点的权值来构造一棵赫夫曼树。规定赫夫曼树的左分支代表0，右分支代表1，则从根结点到叶子结点所经过的路径分支组成的0和1的序列便为该结点对应字符的编码，这就是赫夫曼编码。