目录
1.树的概念及结构
1.1树的概念
数是一种非线性的数据结构,它是由n(n >= 0)个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一颗倒挂的数,也就是说它是根朝上,而叶朝下的。
- 有一个特殊的结点。称为根结点,根节点没有前驱结点
- 除根节点外,其余结点被分成M(M > 0)个互不相交的集合其中每一个集合Ti(1<= i<= m)又是一棵结构与树类似的子树。每棵子树的根结点有且只有一个前驱,可以有0个或多个后继因此,树是递归定义的。
注:树形结构中,子树之间不能有交集,否则就不是树形结构,任何一颗树都是由根和子树组成,子树又是由根和子树组成,直到没有子树就结束了也就是达到叶节点。
1.2树的相关概念
节点的度:一个节点含有的子树的个数称为该节点的度;如上图:A的度为6。
叶节点或终端节点:度为0的节点称为叶节点;如上图:B、C、H、I、P、Q、K、L、M、N等节点为叶节点
非终端节点或分支节点:度不为0的节点;如上图:A、D、E、F、G、J等节点为分支节点
双亲节点或父节点:若一个节点含有子节点,则这个节点称为其子节点的父节点;如上图A是B的父节点
孩子节点或子节点:一个节点含有的子树的根节点称为该节点的子节点; 如上图:B是A的孩子节点
兄弟节点:具有相同父节点的节点互称为兄弟节点; 如上图:B、C是兄弟节点
树的度:一棵树中,最大的节点的度称为树的度; 如上图:树的度为6
节点的层次:从根开始定义起,根为第1层,根的子节点为第2层,以此类推;
树的高度或深度:树中节点的最大层次; 如上图:树的高度为4
堂兄弟节点:双亲在同一层的节点互为堂兄弟;如上图:H、I互为兄弟节点
节点的祖先:从根到该节点所经分支上的所有节点;如上图:A是所有节点的祖先
子孙:以某节点为根的子树中任一节点都称为该节点的子孙。如上图:所有节点都是A的子孙
森林:由m(m>0)棵互不相交的树的集合称为森林;
1.3树的表示
树结构相对线性表就比较复杂了,要存储表示起来就比较麻烦了,既然保存值域,也要保存结点和结点之间的关系,实际中树有很多种表示方式如:双亲表示法,孩子表示法、孩子双亲表示法以及孩子兄弟表示法等。我们这里就简单的了解其中最常用的孩子兄弟表示法。
typedef int DataType; struct Node { struct Node* Child; //指向第一个孩子结点 struct Node* Brother; //指向其下一个兄弟结点 DataType data; //结点中的数据域 };
1.4树在实际中的运用(表示文件系统的目录树结构)
2.二叉树概念及结构
2.1概念
一棵二叉树是结点的一个有限集合,该集合:
1.或者为空。
2.由一个根节点加上两颗别称为左子树和右子树的二叉树组成。
从上图可以知道:
1.二叉树不存在度大于2的结点
2.二叉树的子树有左右之分,次序不能颠倒,因此二叉树是有序树
注:对于而已二叉树都是由这几种情况复合而成的:
1.空树 2.只有根节点 3.只有左子树 4.只有右子树 5.左右子树均存在
2.2特殊的二叉树
1.满二叉树:一个二叉树,如果每一个层的结点数都达到最大值,则这个二叉树就是满二叉树。也就是
说,如果一个二叉树的层数为K,且结点总数是 ,则它就是满二叉树
2.完全二叉树:完全二叉树是效率很高的数据结构,完全二叉树是由满二叉树而引出来的。对于深度为K
的,有n个结点的二叉树,当且仅当其每一个结点都与深度为K的满二叉树中编号从1至n的结点一一对
应时称之为完全二叉树。 要注意的是满二叉树是一种特殊的完全二叉树。
注:通过高度可以计算完全二叉树的节点数量,那么反过来可以通过节点数量计算完全二叉树的高度:
满二叉树:
N = 2^h-1 : h = log(N+1),(log是以2为底)。
完全二叉树:
[N = 2^(h-1) : h = logN+1 , N = 2^h-1 : h = log(N+1)],(log是以2为底)。
2.3二叉树的性质
1.若规定根节点的层数为1,则一棵非空二叉树的第i层上最多有2^(i-1)-1个节点,或者层数只有一层则是2^(i-1)个节点。
2.若规定根节点的层数为1,则深度为h的二叉树的最多结点数是2^h-1。
3.对任何一棵二叉树,如果度为0的叶节点个数设为N0,度为2的分支节点个数设为N2,则N0 = N2 + 1(也就是说度为0的叶节点个数比度为2的分支节点个数多一个,指定的是二叉树叶节点比分支节点多一个并且增加度为1的结点没有影响,在完全二叉树里面度为1的结点要么没有,要么只有一个)。
4. 若规定根节点的层数为1,具有n个结点的满二叉树的深度,h = log2(n + 1).(ps:log2(n + 1)是log以2为底,n+1为对数)。(设n为15则高度是4)。
5.对于具有n个结点的完全二叉树,如果按照从上至下从左至右的数组顺序对所有节点从0开始编号,则对于序号为i的结点有以下几种情况:
- 若i>0,i位置节点的双亲序号:(i-1)/2;i=0,i为根节点编号,无双亲节点(i为数组下标位置),parent = (child-1)/2;//parent:父节点
- 若2i+1<n,左孩子序号:2i+1,若2i+1>=n否则无左孩子(n为数组下表位置,i为数组下标位置),leftchild = parent*2+1//leftchid:左子节点
- 若2i+2<n,右孩子序号:2i+2,若2i+2>=n否则无右孩子(n为数组下表位置,i为数组下标位置),rightchild = parent*2+2//rightchild:右子节点
- 注:直白点就是在数组里父节点下标是孩子节点减1除2就是父节点的下标位置,左孩子就是父节点下标乘2加1,有孩子改为加2。
1.在具有 2n 个结点的完全二叉树中,叶子结点个数为(A)
A n
B n+1
C n-1
D n/2
2.4二叉树的存储结构
二叉树一般可以使用两种结构存储,一种顺序结构,一种链式结构。
1. 顺序存储
顺序结构存储就是使用数组来存储,一般使用数组只适合表示完全二叉树,因为不是完全二叉树会有空间的浪费。而现实中使用中只有堆才会使用数组来存储。二叉树顺序存储在物理上是一个数组,在逻辑上是一颗二叉树。
2.链式存储
二叉树的链式存储结构是指,用链表来表示一棵二叉树,即用链来指示元素的逻辑关系。 通常的方法是链表中每个结点由三个域组成,数据域和左右指针域,左右指针分别用来给出该结点左孩子和右孩子所在的链结点的存储地址 。链式结构又分为二叉链和三叉链,当前我们学习中一般都是用二叉链。
3.二叉树的顺序结构及实现
3.1二叉树的顺序结构
普通的二叉树是不适合用数组来存储的,因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结构存储。现实中我们通常把堆(一种二叉树)使用顺序结构的数组来存储,需要注意的是这里的堆和操作系统虚拟进程地址空间中的堆是两回事,一个是数据结构,一个是操作系统中管理内存的一块区域分段。
3.2堆的概念及结构
如果有一个关键码的集合K = {k0,k1,k2,....,k(n-1)},把它的所有元素按完全二叉树的顺序存储方式存储在一个一维数组中,并满足:Ki <= K2*i+1且Ki<= K2*i+2(Ki >= K2*i+1且Ki >= K2*i+2 )i = 0,1,2…,则称为小堆(或大堆)。将根节点最大的堆叫做最大堆或大根堆,根节点最小的堆叫做最小堆或小根堆。(K后面的字母和数字一律为小写),Ki <= K2*i+1且Ki<= K2*i+2这一部分是小堆,括号里面这一部分Ki >= K2*i+1且Ki >= K2*i+2是大堆。如图:
堆的性质:
1.堆中某个节点的值总是不大于或不小于其父节点的值;
注:小堆的父节点总是小于或等于其左右子节点,大堆的父节点总是大于或等于其左右子节点。
2.堆总是一棵完全二叉树。
3.3堆的实现
#include <stdbool.h>
#include <stdio.h>
#include <stdlib.h>
#include <assert.h>
typedef int HPDataType;
typedef struct Heap
{
HPDataType* a;//因为堆是一颗完全二叉树可以使用数组来存储数据
int size;
int capacity;
}Heap;
//初始化
void HeapInit(Heap* php);
//void HeapCreate(Heap* php, HPDataType* a, int x);//Create构建和Init都是实现一样的功能
//销毁
void HeapDestory(Heap* php);
void HeapPush(Heap* php, HPDataType x);
void HeapPop(Heap* php);
HPDataType HeapTop(Heap* php);
int HeapSize(Heap* php);
bool HeapEmpty(Heap* php);
插入数据:
这里使用数组来模拟堆,每一次尾插都使用向上调整算法把它建成大堆或者小堆。
删除数据:
堆应该删除堆低的数据还是删除堆顶的数据?直接删除堆低的数据是没有意义的,因为堆低要么是最大的数据,要么是最小的数据,删除之后也不需要去调整它,只有删除堆顶的数据才有意义,如果直接删除堆顶它就构不成堆了,这时候需要使用向下调整算法在去调整它重新构成堆。
它的时间复杂度是O(logN),因为他调整的是高度次,它的高度也是logN。
注:向上调整和向下调整都可以建大堆和小堆
完整代码
main.c
#include "Heap.h"
void test()
{
Heap hp;
HeapInit(&hp);
HeapPush(&hp, 1);
HeapPush(&hp, 2);
HeapPush(&hp, 3);
HeapPush(&hp, 4);
HeapPush(&hp, 5);
HeapPush(&hp, 6);
HeapPush(&hp, 7);
HeapPush(&hp, 8);
while (!HeapEmpty(&hp))
{
printf("%d ", HeapTop(&hp));
HeapPop(&hp);
}
printf("\n");
HeapDestory(&hp);
}
int main()
{
test();
return 0;
}
heap.c
#include "Heap.h"
//初始化
//void HeapCreate(Heap* php, HPDataType* a, int x);//Create构建和Init都是实现一样的功能
//初始化的同时使用给的数组a给开辟的空间赋值。
void HeapInit(Heap* php)
{
assert(php);
php->a = (HPDataType*)malloc(sizeof(HPDataType) * 4);
if (php->a == NULL)
{
perror("malloc fail");
return;
}
php->size = 0;
php->capacity = 4;
}
//销毁
void HeapDestory(Heap* php)
{
assert(php);
free(php->a);
php->a = NULL;
}
void Swap(HPDataType* x, HPDataType* y)
{
HPDataType tmp = *x;
*x = *y;
*y = tmp;
}
//前提:堆.向上调整并且除了child这个位置,前面的数据构成堆
void AdjuseUp(HPDataType* a, int child)//child: 孩子
{
int parent = (child - 1) / 2;
while (child > 0)//如果child大于0说明还可以向上调整继续比较,小于等于0说明已经到大堆顶没有父节点了。
{
if (a[child] > a[parent])//把大的数往上调,改为小于号就是小堆
{
Swap(&a[parent], &a[child]);
child = parent;
parent = (child - 1) / 2;
}
else
{
break;
}
}
}
void HeapPush(Heap* php, HPDataType x)
{
assert(php);
if (php->size == php->capacity)
{
HPDataType* tmp = (HPDataType*)realloc(php->a, sizeof(HPDataType) * (php->capacity * 2));
if (tmp == NULL)
{
perror("relloc fail");
return;
}
php->a = tmp;
php->capacity *= 2;
}
php->a[php->size++] = x;
AdjuseUp(php->a, php->size - 1);
}
//堆.向下调整并且左右子树都是大堆/小堆
void AdjuseDown(HPDataType* a, int size, int parent)
{
int child = parent * 2 + 1;//计算左孩子位置
while (child < size)
{
if (child + 1 < size && a[child + 1] > a[child])//左右子树相比较,取最大的那一个
{
child++;
}
if (a[child] > a[parent])//把小的数往下调
{
Swap(&a[child], &a[parent]);
parent = child;
child = parent * 2 + 1;
}
else
{
break;
}
}
}
void HeapPop(Heap* php)
{
assert(php);
assert(!HeapEmpty(php));//assert判断为假或者为空才执行
Swap(&php->a[0], &php->a[php->size - 1]);
php->size--;
AdjuseDown(php->a, php->size, 0);
}
HPDataType HeapTop(Heap* php)
{
assert(php);
return php->a[0];
}
int HeapSize(Heap* php)
{
assert(php);
return php->size;
}
bool HeapEmpty(Heap* php)
{
assert(php);
return php->size == 0;
}
heap.h
#include <stdbool.h>
#include <stdio.h>
#include <stdlib.h>
#include <assert.h>
typedef int HPDataType;
typedef struct Heap
{
HPDataType* a;
int size;
int capacity;
}Heap;
//初始化
void HeapInit(Heap* php);
//void HeapCreate(Heap* php, HPDataType* a, int x);//Create构建和Init都是实现一样的功能
//销毁
void HeapDestory(Heap* php);
void HeapPush(Heap* php, HPDataType x);
void HeapPop(Heap* php);
HPDataType HeapTop(Heap* php);
int HeapSize(Heap* php);
bool HeapEmpty(Heap* php);
3.4堆排序
上面的的堆实现并不是堆排序是堆数据结构,堆排序是借助堆的思想来排序一组数据分为两个步骤:
1.建堆:
升序:建大堆
降序:建小堆
2.利用堆思想来进行排序
建堆和堆删除中都用到了向下调整,因此掌握了向下调整,就可以堆排序。
先利用向下调整给数组建大堆,然后交换头尾之后再次使用向下调整重新建堆。
完整代码:
#include<stdio.h>
void Swap(int* x, int* y)
{
int tmp = *x;
*x = *y;
*y = tmp;
}
//向上调整
void AdjuseUP(int* pa, int child)
{
int parent = (child - 1) / 2;
while (child > 0)
{
if (pa[child] > pa[parent])
{
Swap(&pa[child], &pa[parent]);
child = parent;
parent = (child - 1) / 2;
}
else
{
break;
}
}
}
//堆.向下调整并且左右子树都是大堆/小堆
void AdjuseDown(int* pa, int size, int parent)
{
int child = parent * 2 + 1;//计算左孩子位置
while (child < size)
{
if (child + 1 < size && pa[child + 1] > pa[child])//左右子树相比较,取最小的那一个
{
child++;
}
if (pa[parent] < pa[child])//把小的数往下调
{
Swap(&pa[child], &pa[parent]);
parent = child;
child = parent * 2 + 1;
}
else
{
break;
}
}
}
void HeapSort(int* a, int n)
{
///*第一种方法
//建堆 -- 向上调整建堆
//建堆的时间复杂度是O(N*logN)*/
for (int i = 0; i < n; i++)//这里建的是大堆
{
AdjuseUP(a, i);
}
//int end = n - 1;
//while (end > 0)
//{
// Swap(&a[0], &a[end]);
// AdjuseDown(a, end, 0);//向下调整重新建堆
// --end;
//}
//第二种方法
//这个方法比第一种效率要高,时间复杂度是O(N)
for (int i = (n - 1 - 1) / 2; i >= 0; i--)
{
AdjuseDown(a, n, i);
}
//调整的时间复杂度是O(N * logN)
int end = n - 1;
while (end > 0)
{
Swap(&a[0], &a[end]);
AdjuseDown(a, end, 0);//向下调整重新建堆
--end;
}
}
int main()
{
int arr[] = { 2,1,3,5,4,6,0,7,8,9 };
HeapSort(arr, 10);
for (int i = 0; i < 10; i++)
{
printf("%d ", arr[i]);
}
return 0;
}
3.5TOP-K问题
TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。
比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。
对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能
数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决,基本思路如下:
1. 用数据集合中前K个元素来建堆
前k个最大的元素,则建小堆,如果大于堆顶的数据则交换,然后进行向下调整,把大的往下沉。
前k个最小的元素,则建大堆,如果小于堆顶的数据则交换,然后进行向下调整,把小的往下沉。
2. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素
将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。
代码:
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
void Swap(int* x, int* y)
{
int tmp = *x;
*x = *y;
*y = tmp;
}
void AdjuseDown(int* topk, int k, int parent)
{
int child = parent * 2 + 1;
while (child < k)
{
if (child + 1 < k && topk[child + 1] < topk[child])
{
child++;
}
if (topk[child] < topk[parent])
{
Swap(&topk[child], &topk[parent]);
parent = child;
child = parent * 2 + 1;
}
else
{
break;
}
}
}
void TestTop()
{
//在一个数组里面生成1000个随机数
int n = 1000;
int* a = (int*)malloc(sizeof(int) * n);
if (a == NULL)
{
perror("malloc fail\n");
exit(-1);
}
srand((unsigned int)time(NULL));
for (int i = 0; i < n; i++)
{
int tmp = rand() % 1000 + 1;
a[i] = tmp;
}
//入前k个数据
int k = 10;
int* topk = (int*)malloc(sizeof(int) * k);
if (topk == NULL)
{
perror("malloc fail\n");
exit(-1);
}
for (int i = 0; i < k; i++)
{
topk[i] = a[i];
}
topk[0] = 1111;
topk[9] = 2222;
//求前k个最大的元素,则建小堆
//把topk数组建成堆 - 建小堆
for (int i = (k - 2) / 2; i >= 0; i--)
{
AdjuseDown(topk, k, i);
}
//交换数据,然后重新调整堆
int m = n - k;
while (m >= 0)
{
if (topk[0] < a[m])
{
Swap(&topk[0], &a[m]);
}
AdjuseDown(topk, k, 0);
m--;
}
for (int i = 0; i < k; i++)
{
printf("%d ", topk[i]);
}
}
int main()
{
//求前k个最大的元素,则建小堆
TestTop();
return 0;
}