第一章 概 论
数据就是指能够被计算机识别、存储和加工处理的信息的载体。数据元素是数据的基本单位,可以由若干个数据项组成。数据项是具有独立含义的最小标识单位。
数据结构的定义:
·逻辑结构:从逻辑结构上描述数据,独立于计算机。
·线性结构:一对一关系。
·线性结构:多对多关系。
·存储结构:是逻辑结构用计算机语言的实现。
·顺序存储结构:如数组。
·链式存储结构:如链表。
·索引存储结构:·稠密索引:每个结点都有索引项。
·稀疏索引:每组结点都有索引项。
·散列存储结构:如散列表。
·数据运算。·对数据的操作。定义在逻辑结构上,每种逻辑结构都有一个运算集合。
·常用的有:检索、插入、删除、更新、排序。
数据类型:是一个值的集合以及在这些值上定义的一组操作的总称。
·原子类型:由语言提供。
·结构类型:由用户借助于描述机制定义,是导出类型。
抽象数据类型ADT:·是抽象数据的组织和与之的操作。相当于在概念层上描述问题。
·优点是将数据和操作封装在一起实现了信息隐藏。
程序设计的实质是对实际问题选择一种好的数据结构,设计一个好的算法。算法取决于数据结构。
算法是一个良定义的计算过程,以一个或多个值输入,并以一个或多个值输出。
评价算法的好坏的因素:
·算法是正确的;
·执行算法的时间;
·执行算法的存储空间(主要是辅助存储空间);
·算法易于理解、编码、调试。
时间复杂度:是某个算法的时间耗费,它是该算法所求解问题规模n的函数。
渐近时间复杂度:是指当问题规模趋向无穷大时,该算法时间复杂度的数量级。
评价一个算法的时间性能时,主要标准就是算法的渐近时间复杂度。
算法中语句的频度不仅与问题规模有关,还与输入实例中各元素的取值相关。
时间复杂度按数量级递增排列依次为:常数阶O(1)、对数阶O(log2n)、线性阶O(n)、线性对数阶O(nlog2n)、平方阶O(n^2)、立方阶O(n^3)、……k次方阶O(n^k)、指数阶O(2^n)。
空间复杂度:是某个算法的空间耗费,它是该算法所求解问题规模n的函数。
算法的时间复杂度和空间复杂度合称算法复杂度。
第二章 线性表
线性表是由n≥0个数据元素组成的有限序列。n=0是空表;非空表,只能有一个开始结点,有且只能有一个终端结点。
线性表上定义的基本运算:
·构造空表:Initlist(L)
·求表长:Listlength(L)
·取结点:GetNode(L,i)
·查找:LocateNode(L,x)
·插入:InsertList(L,x,i)
·删除:Delete(L,i)
顺序表是按线性表的逻辑结构次序依次存放在一组地址连续的存储单元中。在存储单元中的各元素的物理位置和逻辑结构中各结点相邻关系是一致的。地址计算:LOCa(i)=LOCa(1)+(i-1)*d;(首地址为1)
在顺序表中实现的基本运算:
·插入:平均移动结点次数为n/2;平均时间复杂度均为O(n)。
·删除:平均移动结点次数为(n-1)/2;平均时间复杂度均为O(n)。
线性表的链式存储结构中结点的逻辑次序和物理次序不一定相同,为了能正确表示结点间的逻辑关系,在存储每个结点值的同时,还存储了其后继结点的地址信息(即指针或链)。这两部分信息组成链表中的结点结构。 一个单链表由头指针的名字来命名。
单链表运算:·建立单链表·头插法:s->next=head;head=s;生成的顺序与输入顺序相反。平均时间复杂度均为O(n)。
·尾插法:head=rear=null;if(head=null) head=s;else r->next=s;r=s; 平均时间复杂度均为O(n)
·加头结点的算法:对开始结点的操作无需特殊处理,统一了空表和非空表。
·查找·按序号:与查找位置有关,平均时间复杂度均为O(n)。
·按值:与输入实例有关,平均时间复杂度均为O(n)。
·插入运算:p=GetNode(L,i-1);s->next=p->next;p->next=s;平均时间复杂度均为O(n)
·删除运算:p=GetNode(L,i-1);r=p->next;p->next=r->next;free(r);平均时间复杂度均为O(n)
单循环链表是一种首尾相接的单链表,终端结点的指针域指向开始结点或头结点。链表终止条件是以指针等于头指针或尾指针。
采用单循环链表在实用中多采用尾指针表示单循环链表。优点是查找头指针和尾指针的时间都是O(1),不用遍历整个链表。
双链表就是双向链表,就是在单链表的每个结点里再增加一个指向其直接前趋的指针域prior,形成两条不同方向的链。由头指针head惟一确定。
双链表也可以头尾相链接构成双(向)循环链表。
双链表上的插入和删除时间复杂度均为O(1)。
顺序表和链表的比较:
·基于空间:
·顺序表的存储空间是静态分配,存储密度为1;适于线性表事先确定其大小时采用。
·链表的存储空间是动态分配,存储密度<1;适于线性表长度变化大时采用。
·基于时间:
·顺序表是随机存储结构,当线性表的操作主要是查找时,宜采用。
·以插入和删除操作为主的线性表宜采用链表做存储结构。
·若插入和删除主要发生在表的首尾两端,则宜采用尾指针表示的单循环链表。
第三章 栈和队列
栈(Stack)是仅限制在表的一端进行插入和删除运算的线性表,称插入、删除这一端为栈顶,另一端称为栈底。表中无元素时为空栈。栈的修改是按后进先出的原则进行的,我们又称栈为LIFO表(Last In First Out)。通常栈有顺序栈和链栈两种存储结构。
栈的基本运算有六种: ·构造空栈:InitStack(S)
·判栈空: StackEmpty(S)
·判栈满: StackFull(S)
·进栈: Push(S,x)
·退栈: Pop(S)
·取栈顶元素:StackTop(S)
在顺序栈中有“上溢”和“下溢”的现象。
·“上溢”是栈顶指针指出栈的外面是出错状态。
·“下溢”可以表示栈为空栈,因此用来作为控制转移的条件。
顺序栈中的基本操作有六种:·构造空栈·判栈空·判栈满·进栈·退栈·取栈顶元素
链栈则没有上溢的限制,因此进栈不要判栈满。链栈不需要在头部附加头结点,只要有链表的头指针就可以了。
链栈中的基本操作有五种:·构造空栈·判栈空·进栈·退栈·取栈顶元素
队列(Queue)是一种运算受限的线性表,插入在表的一端进行,而删除在表的另一端进行,允许删除的一端称为队头(front),允许插入的一端称为队尾(rear) ,队列的操作原则是先进先出的,又称作FIFO表(First In First Out) .队列也有顺序存储和链式存储两种存储结构。
队列的基本运算有六种:
·置空队:InitQueue(Q)
·判队空:QueueEmpty(Q)
·判队满:QueueFull(Q)
·入队:EnQueue(Q,x)
·出队:DeQueue(Q)
·取队头元素:QueueFront(Q)
顺序队列的“假上溢”现象:由于头尾指针不断前移,超出向量空间。这时整个向量空间及队列是空的却产生了“上溢”现象。
为了克服“假上溢”现象引入循环向量的概念,是把向量空间形成一个头尾相接的环形,这时队列称循环队列。
判定循环队列是空还是满,方法有三种: ·一种是另设一个布尔变量来判断;
·第二种是少用一个元素空间,入队时先测试((rear+1)%m = front)? 满:空;
·第三种就是用一个计数器记录队列中的元素的总数。
队列的链式存储结构称为链队列,一个链队列就是一个操作受限的单链表。为了便于在表尾进行插入(入队)的操作,在表尾增加一个尾指针,一个链队列就由一个头指针和一个尾指针唯一地确定。链队列不存在队满和上溢的问题。在链队列的出队算法中,要注意当原队中只有一个结点时,出队后要同进修改头尾指针并使队列变空。
第四章 串
串是零个或多个字符组成的有限序列。
·空串:是指长度为零的串,也就是串中不包含任何字符(结点)。
·空白串:指串中包含一个或多个空格字符的串。
·在一个串中任意个连续字符组成的子序列称为该串的子串,包含子串的串就称为主串。
·子串在主串中的序号就是指子串在主串中首次出现的位置。
·空串是任意串的子串,任意串是自身的子串。
串分为两种: ·串常量在程序中只能引用不能改变;
·串变量的值可以改变。
串的基本运算有: ·求串长strlen(char*s)
·串复制strcpy(char*to,char*from)
·串联接strcat(char*to,char*from)
·串比较charcmp(char*s1,char*s2)
·字符定位strchr(char*s,charc)
串是特殊的线性表(结点是字符),所以串的存储结构与线性表的存储结构类似。串的顺序存储结构简称为顺序串。
顺序串又可按存储分配的不同分为:
·静态存储分配:直接用定长的字符数组来定义。优点是涉及串长的操作速度快,但不适合插入、链接操作。
·动态存储分配:是在定义串时不分配存储空间,需要使用时按所需串的长度分配存储单元。
串的链式存储就是用单链表的方式存储串值,串的这种链式存储结构简称为链串。链串与单链表的差异只是它的结点数据域为单个字符。
为了解决“存储密度”低的状况,可以让一个结点存储多个字符,即结点的大小。
顺序串上子串定位的运算:又称串的“模式匹配”或“串匹配”,是在主串中查找出子串出现的位置。在串匹配中,将主串称为目标(串),子串称为模式(串)。这是比较容易理解的,串匹配问题就是找出给定模式串P在给定目标串T中首次出现的有效位移或者是全部有效位移。最坏的情况下时间复杂度是O((n-m+1)m),假如m与n同阶的话则它是O(n^2)。链串上的子串定位运算位移是结点地址而不是整数。
第五章 多维数组和广义表
数组一般用顺序存储的方式表示。存储的方式有:
·行优先顺序,也就是把数组逐行依次排列。PASCAL、C
·列优先顺序,就是把数组逐列依次排列。FORTRAN
地址的计算方法:
·按行优先顺序排列的数组:LOCa(ij)=LOCa(11)+((i-1)*n+(j-1))*d.
·按列优先顺序排列的数组:LOCa(ij)=LOCa(11)+((j-1)*n+(i-1))*d.
矩阵的压缩存储:为多个相同的非零元素分配一个存储空间;对零元素不分配空间。
特殊矩阵的概念:所谓特殊矩阵是指非零元素或零元素分布有一定规律的矩阵。
稀疏矩阵的概念:一个矩阵中若其非零元素的个数远远小于零元素的个数,则该矩阵称为稀疏矩阵。
特殊矩阵的类型:
·对称矩阵:满足a(ij)=a(ji)。元素总数n(n+1)/2.I=max(i,j),J=min(i,j),LOCa(ij)=LOC(sa[0])+(I*(I+1)/2+J)*d.
·三角矩阵: ·上三角阵:k=i*(2n-i+1)/2+j-i,LOCa(ij)=LOC(sa[0])+k*d.
·下三角阵:k=i*(i+1)/2+j,LOCa(ij)=LOC(sa[0])+k*d.
·对角矩阵:k=2i+j,LOCa(ij)=LOC(sa[0])+k*d.
稀疏矩阵的压缩存储方式用三元组表把非零元素的值和它所在的行号列号做为一个结点存放在一起,用这些结点组成的一个线性表来表示。但这种压缩存储方式将失去随机存储功能。加入行表记录每行的非零元素在三元组表中的起始位置,即带行表的三元组表。
广义表是n(n≥0)个元素的有限序列,其中的元素是原子或者是一个广义表。
广义表表头和表尾的概念:
·若广义表LS非空(n≥1),则这个广义表的第一个元素就是表头。
·其余的元素组成的表称为LS的表尾,所以表尾必是一个子表。
广义表有两种表示法,一种是括号表示法,一种是图形表示法。
广义表与树(形结构)相对应,这个广义表就是纯表。
如果一个广义表的结点又可以被其他结点所共享,则这个表称为再入表。
允许递归的表称为递归表。
线性表∈纯表(树)∈再入表∈递归表 .可见,广义表是对线性表和树的推广。
广义表有两个特殊的基本运算: ·取表头head(LS):取表中的第一个数据元素,不能对空表操作。
·取表尾tail(LS);取除表头外,其余数据元素构成的子表,不能对空表操作。
第六章 树
树是n个结点的有限集合,非空时必须满足:只有一个称为根的结点;其余结点形成m个不相交的子集,并称根的子树。
根是开始结点;结点的子树数称度;度为0的结点称叶子(终端结点);度不为0的结点称分支结点(非终端结点);除根外的分支结点称内部结点;
有序树是子树有左,右之分的树;无序树是子树没有左,右之分的树;森林是m个互不相交的树的集合;
树的四种不同表示方法:·树形表示法;·嵌套集合表示法;·凹入表示法·广义表表示法。
二叉树的定义:是n≥0个结点的有限集,它是空集(n=0)或由一个根结点及两棵互不相交的分别称作这个根的左子树和右子树的二叉树组成。
二叉树不是树的特殊情形,与度数为2的有序树不同。
二叉树的4个重要性质:
·二叉树上第i层上的结点数目最多为2^(i-1)(i≥1)。;
·深度为k的二叉树至多有(2^k)-1个结点(k≥1);
·在任意一棵二叉树中,若终端结点的个数为n0,度为2的结点数为n2,则n0=n2+1;
·具有n个结点的完全二叉树的深度为int(log2n)+1.
满二叉树是一棵深度为k,结点数为(2^k)-1的二叉树;完全二叉树是满二叉树在最下层自右向左去处部分结点;
二叉树的顺序存储结构就是把二叉树的所有结点按照层次顺序存储到连续的存储单元中。(存储前先将其画成完全二叉树)
树的存储结构多用的是链式存储。BinTNode的结构为lchild|data|rchild,把所有BinTNode类型的结点,加上一个指向根结点的BinTree型头指针就构成了二叉树的链式存储结构,称为二叉链表。它就是由根指针root唯一确定的。共有2n个指针域,n+1个空指针。
根据访问结点的次序不同可得三种遍历:先序遍历(前序遍历或先根遍历),中序遍历(或中根遍历)、后序遍历(或后根遍历)。时间复杂度为O(n)。
利用二叉链表中的n+1个空指针域来存放指向某种遍历次序下的前趋结点和后继结点的指针,这些附加的指针就称为“线索”,加上线索的二叉链表就称为线索链表。线索使得查找中序前趋和中序后继变得简单有效,但对于查找指定结点的前序前趋和后序后继并没有什么作用。
树和森林及二叉树的转换是唯一对应的。
转换方法: ·树变二叉树:兄弟相连,保留长子的连线。
·二叉树变树:结点的右孩子与其双亲连。
·森林变二叉树:树变二叉树,各个树的根相连。
树的存储结构:·有双亲链表表示法:结点data | parent,对于求指定结点的双亲或祖先十分方便,但不适于求指定结点的孩子及后代。
·孩子链表表示法:为树中每个结点data | next设置一个孩子链表firstchild,并将data | firstchild存放在一个向量中。
·双亲孩子链表表示法:将双亲链表和孩子链表结合。
·孩子兄弟链表表示法:结点结构leftmostchild |data | rightsibing,附加两个分别指向该结点的最左孩子和右邻兄弟的指针域。
树的前序遍历与相对应的二叉树的前序遍历一致;树的后序遍历与相对应的二叉树的中序遍历一致。
树的带权路径长度是树中所有叶结点的带权路径长度之和。树的带权路径长度最小的二叉树就称为最优二叉树(即哈夫曼树)。
在叶子的权值相同的二叉树中,完全二叉树的路径长度最短。
哈夫曼树有n个叶结点,共有2n-1个结点,没有度为1的结点,这类树又称为严格二叉树。
变长编码技术可以使频度高的字符编码短,而频度低的字符编码长,但是变长编码可能使解码产生二义性。如00、01、0001这三个码无法在解码时确定是哪一个,所以要求在字符编码时任一字符的编码都不是其他字符编码的前缀,这种码称为前缀码(其实是非前缀码)。
哈夫曼树的应用最广泛地是在编码技术上,它能够容易地求出给定字符集及其概率分布的最优前缀码。哈夫曼编码的构造很容易,只要画好了哈夫曼树,按分支情况在左路径上写代码0,右路径上写代码1,然后从上到下到叶结点的相应路径上的代码的序列就是该结点的最优前缀码。
第七章 图
图的逻辑结构特征就是其结点(顶点)的前趋和后继的个数都是没有限制的,即任意两个结点之间之间都可能相关。
图GraphG=(V,E),V是顶点的有穷非空集合,E是顶点偶对的有穷集。
有向图Digraph:每条边有方向;无向图Undigraph:每条边没有方向。
有向完全图:具有n*(n-1)条边的有向图;无向完全图:具有n*(n-1)/2条边的无向图;
有根图:有一个顶点有路径到达其它顶点的有向图;简单路径:是经过顶点不同的路径;简单回路是开始和终端重合的简单路径;
网络:是带权的图。
图的存储结构:
·邻接矩阵表示法:用一个n阶方阵来表示图的结构是唯一的,适合稠密图。
·无向图:邻接矩阵是对称的。
·有向图:行是出度,列是入度。
建立邻接矩阵算法的时间是O(n+n^2+e),其时间复杂度为O(n^2)
·邻接表表示法:用顶点表和邻接表构成不是唯一的,适合稀疏图。·顶点表结构 vertex | firstedge,指针域存放邻接表头指针。
·邻接表:用头指针确定。 ·无向图称边表;
·有向图又分出边表和逆邻接表;
·邻接表结点结构为 adjvex | next,
时间复杂度为O(n+e)。,空间复杂度为O(n+e)。。
图的遍历: ·深度优先遍历:借助于邻接矩阵的列。使用栈保存已访问结点。
·广度优先遍历:借助于邻接矩阵的行。使用队列保存已访问结点。
生成树的定义:若从图的某个顶点出发,可以系统地访问到图中所有顶点,则遍历时经过的边和图的所有顶点所构成的子图称作该图的生成树。
最小生成树:图的生成树不唯一,从不同的顶点出发可得到不同的生成树,把权值最小的生成树称为最小生成树(MST)。
构造最小生成树的算法: ·Prim算法的时间复杂度为O(n^2)与边数无关适于稠密图。
·Kruskal算法的时间复杂度为O(lge),主要取决于边数,较适合于稀疏图。
最短路径的算法:·Dijkstra算法,时间复杂度为O(n^2)。·类似于prim算法。
拓扑排序:是将有向无环图G中所有顶点排成一个线性序列,若<u,v>∈E(G),则在线性序列u在v之前,这种线性序列称为拓扑序列。
拓扑排序也有两种方法:·无前趋的顶点优先,每次输出一个无前趋的结点并删去此结点及其出边,最后得到的序列即拓扑序列。
·无后继的结点优先:每次输出一个无后继的结点并删去此结点及其入边,最后得到的序列是逆拓扑序列。
第八章 排序
记录中可用某一项来标识一个记录,则称为关键字项,该数据项的值称为关键字。
排序是使文件中的记录按关键字递增(或递减)次序排列起来。
·基本操作:比较关键字大小;改变指向记录的指针或移动记录。
·存储结构:顺序结构、链表结构、索引结构。
经过排序后这些具有相同关键字的记录之间的相对次序保持不变,则称这种排序方法是稳定的,否则排序算法是不稳定的。
排序过程中不涉及数据的内、外存交换则称之为“内部排序”(内排序),反之,若存在数据的内外存交换,则称之为外排序。
内部排序方法可分五类:插入排序、选择排序、交换排序、归并排序和分配排序。
评价排序算法好坏的标准主要有两条:执行时间和所需的辅助空间,另外算法的复杂程序也是要考虑的一个因素。
插入排序:·直接插入排序: ·逐个向前插入到合适位置。
·哨兵(监视哨)有两个作用: ·作为临变量存放R[i]
·是在查找循环中用来监视下标变量j是否越界。
·直接插入排序是就地的稳定排序。时间复杂度为O(n^2),比较次数为(n+2)(n-1)/2;移动次数为(n+4)(n-1)/2;
·希尔排序: ·等间隔的数据比较并按要求顺序排列,最后间隔为1.
·希尔排序是就地的不稳定排序。时间复杂度为O(n^1.25),比较次数为(n^1.25);移动次数为(1.6n^1.25);
交换排序:·冒泡排序:·自下向上确定最轻的一个。·自上向下确定最重的一个。·自下向上确定最轻的一个,后自上向下确定最重的一个。
·冒泡排序是就地的稳定排序。时间复杂度为O(n^2),比较次数为n(n-1)/2;移动次数为3n(n-1)/2;
·快速排序:·以第一个元素为参考基准,设定、动两个指针,发生交换后指针交换位置,直到指针重合。重复直到排序完成。
·快速排序是非就地的不稳定排序。时间复杂度为O(nlog2n),比较次数为n(n-1)/2;
选择排序:·直接选择排序: ·选择最小的放在比较区前。
·直接选择排序就地的不稳定排序。时间复杂度为O(n^2)。比较次数为n(n-1)/2;
·堆排序 ·建堆:按层次将数据填入完全二叉树,从int(n/2)处向前逐个调整位置。
·然后将树根与最后一个叶子交换值并断开与树的连接并重建堆,直到全断开。
·堆排序是就地不稳定的排序,时间复杂度为O(nlog2n),不适宜于记录数较少的文件。
归并排序: ·先两个一组排序,形成(n+1)/2组,再将两组并一组,直到剩下一组为止。
·归并排序是非就地稳定排序,时间复杂度是O(nlog2n),
分配排序:·箱排序: ·按关键字的取值范围确定箱子数,按关键字投入箱子,链接所有非空箱。
·箱排序的平均时间复杂度是线性的O(n)。
·基数排序:·从低位到高位依次对关键字进行箱排序。
·基数排序是非就稳定的排序,时间复杂度是O(d*n+d*rd)。
各种排序方法的比较和选择: ·。待排序的记录数目n;n较大的要用时间复杂度为O(nlog2n)的排序方法;
·记录的大小(规模);记录大最好用链表作为存储结构,而快速排序和堆排序在链表上难于实现;
·关键字的结构及其初始状态;
·对稳定性的要求;
·语言工具的条件;
·存储结构;
·时间和辅助空间复杂度。
第九章 查找
查找的同时对表做修改操作(如插入或删除)则相应的表称之为动态查找表,否则称之为静态查找表。
衡量查找算法效率优劣的标准是在查找过程中对关键字需要执行的平均比较次数(即平均查找长度ASL)。
线性表查找的方法: ·顺序查找:逐个查找,ASL=(n+1)/2;
·二分查找:取中点int(n/2)比较,若小就比左区间,大就比右区间。用二叉判定树表示。ASL=(∑(每层结点数*层数))/N.
·分块查找。要求“分块有序”,将表分成若干块内部不一定有序,并抽取各块中的最大关键字及其位置建立有序索引表。
二叉排序树(BST)定义是:二叉排序树是空树或者满足如下性质的二叉树: ·若它的左子树非空,则左子树上所有结点的值均小于根结点的值;
·若它的右子树非空,则右子树上所有结点的值均大于根结点的值;
·左、右子树本身又是一棵二叉排序树。
二叉排序树的插入、建立、删除的算法平均时间性能是O(nlog2n)。
二叉排序树的删除操作可分三种情况进行处理: ·*P是叶子,则直接删除*P,即将*P的双亲*parent中指向*P的指针域置空即可。
·*P只有一个孩子*child,此时只需将*child和*p的双亲直接连接就可删去*p.
·*p有两个孩子,则先将*p结点的中序后继结点的数据到*p,删除中序后继结点。
关于B-树(多路平衡查找树)。它适合在磁盘等直接存取设备上组织动态的查找表,是一种外查找算法。建立的方式是从下向上拱起。
散列技术:将结点按其关键字的散列地址存储到散列表的过程称为散列。散列函数的选择有两条标准:简单和均匀。
常见的散列函数构的造方法:
·。平方取中法:hash=int((x^2)%100)
·。除余法:表长为m,hash=x%m
·。相乘取整法:hash=int(m*(x*A-int(x*A));A=0.618
·。随机数法:hash=random(x)。
处理冲突的方法:·开放定址法: ·一般形式为hi=(h(key)+di)%m1≤i≤m-1,开放定址法要求散列表的装填因子α≤1.
·开放定址法类型: ·线性探查法:address=(hash(x)+i)%m;
·二次探查法:address=(hash(x)+i^2)%m;
·双重散列法:address=(hash(x)+i*hash(y))%m;
·拉链法: ·是将所有关键字为同义词的结点链接在同一个单链表中。
·拉链法的优点: ·拉链法处理冲突简单,且无堆积现象;
·链表上的结点空间是动态申请的适于无法确定表长的情况;
·拉链法中α可以大于1,结点较大时其指针域可忽略,因此节省空间;
·拉链法构造的散列表删除结点易实现。
·拉链法也有缺点:当结点规模较小时,用拉链法中的指针域也要占用额外空间,还是开放定址法省空间。
第十章 文件
文件是性质相同的记录的集合。记录是文件中存取的基本单位,数据项是文件可使用的最小单位,数据项有时称字段或者属性。
文件 ·逻辑结构是一种线性结构。
·操作有:检索和维护。并有实时和批量处理两种处理方式。
文件 ·存储结构是指文件在外存上的组织方式。
·基本的组织方式有:顺序组织、索引组织、散列组织和链组织。
·常用的文件组织方式:顺序文件、索引文件、散列文件和多关键字文件。
评价一个文件组织的效率,是执行文件操作所花费的时间和文件组织所需的存储空间。
检索功能的多寡和速度的快慢,是衡量文件操作质量的重要标志。
顺序文件是指按记录进入文件的先后顺序存放、其逻辑顺序和物理顺序一致的文件。主关键字有序称顺序有序文件,否则称顺序无序文件。
一切存储在顺序存储器(如磁带)上的文件都只能顺序文件,只能按顺序查找法存取。
顺序文件的插入、删除和修改只能通过复制整个文件实现。
索引文件的组织方式:通常是在主文件之外建立一张索引表指明逻辑记录和物理记录之间一一对应的关系,它和主文件一起构成索引文件。
索引非顺序文件中的索引表为稠密索引。索引顺序文件中的索引表为稀疏索引。
若记录很大使得索引表也很大时,可对索引表再建立索引,称为查找表。是一种静态索引。
索引顺序文件常用的有两种:
·ISAM索引顺序存取方法:是专为磁盘存取文件设计的,采用静态索引结构。
·VSAM虚拟存储存取方法:采用B+树作为动态索引结构,由索引集、顺序集、数据集组成。
散列文件是利用散列存储方式组织的文件,亦称为直接存取文件。
散列文件
·优点是:文件随机存放,记录不需要排序;插入删除方便;存取速度快;不需要索引区,节省存储空间。
·缺点是:不能进行顺序存取,只能按关键字随机存取,且询问方式限地简单询问,需要重新组织文件。
多重表文件:对需要查询的次关键字建立相应的索引,对相同次关键字的记录建一个链表并将链表头指针、长度、次关键字作为索引表的索引项。
倒排表:次关键字索引表称倒排表,主文件和倒排表构成倒排文件。
自考数据结构公式汇总
1. O(1)、O(log2n)、O(n)、O(nlog2n)、O(n2)、 O(n3)、O(nk)、O(2n)。
2. 在顺序表中第i个位置插入一个结点的移动次数为n-i+1,插入平均移动n/2次,删除顺序表第i个结点移动次数为n-i,平均移动(n-1)/2次。
3. 定义变量p=(LinkList)malloc(sizeof(ListNode))或p=(LinkNode*)malloc(sizeof(ListNode))
4. 单循环链表判断空:head= =head->next
5. 共享向量空间判断满top1=top2-1
6. 入队EnQueue,出队DeQueue,front=rear空队列,循环队列克服假上溢
7. 循环队列判断队满(rear+1)%m=front,循环队列指针移动方向顺时针。判队列长度(rear-front+m)%m
8. 链队列判空:Q->front=Q->rear=NULL
9. 求串长strlen,串复制strcpy(to,from),联接strcat(to,from),串比较strcmp(s1大就大于s1小就小于,小写字母>大写字母),字符定位strchr
10. 串的子串定位(模式匹配)下标从0开始,最坏情况下时间复杂度比较次数O((n-m+1)m)
11. 二维数组下标为0公式:行优先LOC(a00)+[i*n+j]*d,列优先LOC(a00)+[j*m+i]*d
12. 三维数组下标为0公式:三维数组Amnp按行优先LOC(aijk)=LOC(a000)+[i*n*p+j*p+k]*d
13. 对称矩阵一共有n(n+1)/2个元素,存储位置k=I*(I+1)/2+J(I=max(i,j),J=min(i,j))下标0开始
14. 上三角矩阵:k=i*(2n-i+1)+j-i,下三角矩阵:k=i*(i+1)/2+j。上三角i>j下三角i<j常数n*(n+1)/2
15. 对角矩阵:若︱i-j︱>(k-1)/2,则元素aij=0
16. 三元组表组成:i(行)j(列)v(值),转置时间复杂度O(m*n),带行表的三元组表是一种顺序存储结构。
17. 二叉树第i层上的结点数目最多为2i-1,深度为k的二叉树至多有2k-1个结点。终端结点的个数为n0,度为2的结点数为n2,则n0=n2+1。一棵深度为k且有2k-1个结点的二叉树称满二叉树。具有n个结点的完全二叉树的深度为⌊lgn⌋+1 或⌈lg(n+1)⌉
18. 完全二叉树中编号i>⌊n/2⌋的结点必定是叶结点。
19. 二叉链表共有2n个指针域,其中n-1个用来指示结点的左右孩子,其余的n+1个指针域为空。
20. 线索二叉树ltag=0左孩子,ltag=1左线索;rtag=0右孩子,rtag=1右线索。线索查找对查找指定结点的后续后继无帮助。
21. 最优二叉树:哈夫曼树WPL带权路径长度=第几层(第0层开始)*权值,累加。哈夫曼树共有2n-1个结点,其中n为原始结点,生产过程中产生n-1个新结点,如原始结点为4,新结点为3,哈夫曼树则有2*4-1七个结点。
22. 构造哈夫曼树过程:选两个权值最小的,合并成一个新的权值,再在剩下的权值中(包括新合并的权值)再造两个最小的,再合并,直到所有权值合并结束。哈夫曼树编码,左边为0右边为1。
23. 无向完全图有n(n-1)/2条边,有向完全图有n(n-1)条边。一条有向边<vi,vj>vi邻接到vj,vj邻接于vi
24. 顶点数n、边数e和度数D(vi)关系边数e=1/2(所有顶点入度+出度)之和
25. 稀疏图用邻接表,稠密图用邻接矩阵。无向图:邻接表表示中有n个顶点和2e个边表结点,有向图,有n个顶点和e个边表结点。空间复杂度O(n+e)
26. 无向图:邻接表表示中有n个顶点和2e个边表结点,有向图,有n个顶点和e个边表结点。空间复杂度O(n+e)
27. n个顶点的连通图至少有n-1条边。
28. 各种排序方法的比较
方法 | 类型 | 稳定性 | 最好 | 平均 | 最坏 | 空间 |
直插 | 插入 | 稳定 | O(n) | O(n2) | O(1) | |
直选 | 选择 | 不稳定 | O(n2) | |||
冒泡 | 交换 | 稳定 | O(n) | O(n2) | ||
希尔 | 插入 | 不稳定 | n1.25 | |||
快速 | 交换 | 不稳定 | O(nlgn) | O(n2) | Olgn | |
堆 | 选择 | 不稳定 | O(nlgn) | O(1) | ||
归并 | 归并 | 稳定 | O(nlgn) | O(n) | ||
基数 | 分配 | 稳定 | O(d﹒n+d﹒rd) | O(n+rd) |
29. 冒泡排序的移动次数为3n(n-1)/2,比较次数为n(n-1)/2。
30. 顺序查找:平均查找长度:ASLsq=(n+1)/2
31. 二分查找:平均查找长度:ASLbn=(n+1)/n*lg(n+1)-1=lg(n+1)-1。二分查找判定树深度为⌈lg(n+1)⌉
32. 分块查找:要求分块有序。
按二分查找定块:ASLblk=lg(n/s+1)+s/2。
按顺序查找定块:ASL'blk=(s2+2s+n)/(2s),
其中n为节点数,s为块的大小,s=⌈n/b⌉,
当 s=(根号)N 时ASL'blk取极小值 (根号N) +1。
33. 二叉排序树:typedef BSTNode *BSTree;生成:小的插左边,大的插右边。平均查找长度:从1开始。例:(1+2*2+3*4)/7。AVL树,平衡二叉树。
34. 散列表冲突处理方法:开放定址法:线性探查法:hi=(h(key)+i)%m,二次探查法:hi=(h(key)+i*i)%m。
35. B-树关键字个数满足:至少有⌈m/2⌉-1个结点至多有m-1个结点。每个非根的内部结点至少有⌈m/2⌉棵子树,至多有m棵子树。根至少有1个关键字,至少有2棵子树,根至多有m-1个关键字。B-树的高度h=logt(n+1/2)+1 t=⌈m/2⌉
自考数据结构要点汇总
1. 广义表的深度是指表展开后所含括号的层数。分纯表(限制了共享和递归)、再入表(允许结点共享)、递归表
2. 树可以有一个前驱,多个后继。一个结点拥有的子树称为该结点的度。一棵树的度是指该树中结点最大的度数,度为零的结点称为叶子,树之间连接称路径,树中结点的最大层数称为树的高度或深度。
3. 森林转换为二叉树:第一步:根连起来,第二步:原来和根连的左孩子继续向左,第三步:原来和根连的右孩子向右,第四步:下一层,原来向左的继续向左,原来笔直的也向左,原来向右的还是向右。
4. 树的存储结构:双亲链表表示法(结点附设一个指向其双亲的指针parent)、孩子链表表示法(每个结点设置一个孩子链表)、孩子兄弟链表表示法(附加两个分别指向该结点最左孩子和右邻兄弟的指针域)。
5. 树的遍历:前序相当于二叉树前序,后续相当于二叉树中序。
6. 邻接矩阵:行代表入度,列代表出度。邻接表:无向图:顶点表,边表。有向图:顶点表,出边表,入边表。
7. 有向图的极大强连通子图称为G的强连通分量。强连通图只有一个强连通分量,即是其自身。非强连通有向图有多个强连通分量,其中一个是其自身。
8. 深度优先遍历类似于前序遍历,从出发点v,依次经过v的每个邻接点,并将其标记为已访问过,然后依次从v出发搜索v的每个邻接点w,若未曾访问过,则以该点出发继续深度优先遍历,用栈来实现。广度优先遍历类似于按层次遍历,首先访问v所有邻接点w1,w2,w3,然后再访问与w1,w2,w3邻接的所有未曾访问过的顶点,用队列来实现。
9. 最小生成树:普里姆(prim)算法,克鲁斯卡尔(kruskal)算法。最短路径:迪杰斯特拉(Dijkstra)算法。
10. 拓扑排序:图中存在有向环,则不可能使顶点满足拓扑次序。无前趋的顶点优先,无后继的顶点优先。
11. 直接插入排序:设哨兵,将无序区中的第一个记录插到有序区中适当的位置使原有序区变为新的有序区。
12. 冒泡排序:垂直竖立,从下往上扫描,扫到违反轻气泡不能在重气泡之下的原则的轻气泡,就使其向上漂浮。快速排序:分解、求解、组合。序列头为i,序列尾为j,序列头作为关键字,如果j比他小,则i和j交换,i后移一格。继续比较,如果i大于原序列头元素,则i和j再交换,同时j前移一格,直到ij相遇。
13. 直接选择排序:从无序区中选择关键字最小的,将他与无序区的第一个元素交换,分别变为新的有序区和无序区。
14. 堆排序:从⌊n/2⌋向左开始调整,把小的筛到下面去,大的往上移,最后建成大根初始堆。各趟排序:将无序区内第一个元素和最后一个元素交换,并将大的元素移出堆,用虚线表示。然后按照建立初始堆的方法重新调整堆为大根堆。再将无序区内第一个元素和最后一个元素交换。
15. 归并排序:二二归并,再四四归并,最后一趟用直接插入排序完成。
16. 箱排序:把关键字等于k的记录全部装入到第k个箱子里。
17. 基数排序:从低位到高位依次对记录进行箱排序。再从左到右,从上到下输出。
18. 散列表:冲突、碰撞、同义词。散列函数的选择标准,简单和均匀。散列函数构造方法:平方取中法,除余法,相乘取整法,随机数法。冲突处理方法:开放定址法,二次探查法。拉链法:将所有关键之为同义词的结点链接在同一个单链表中,散列表删除只作标记。
19. 其值能惟一标识一个记录的数据项或数据项的组合称为主关键字项。不能惟一的称次关键字项,其值称为主关键字或次关键字。只有一个主关键字称单关键字文件,有一个主关键字还有若干个次关键字,称多关键字文件。
20. 文件又可分为定长文件和不定长文件。文件是记录的汇集,各记录之间自然的形成一种线性关系。文件上的主要操作有检索和维护。检索分为四种询问:简单、范围、函数、布尔。
21. 文件的基本组织方式:顺序组织,索引组织,散列组织,链组织。常用的文件组织方式有,顺序文件、索引文件、散列文件、多关键字文件。
22. 顺序有序文件,文件中的记录按其主关键字有序否则称为顺序无序文件。采用批量处理的方式来实现对顺序文件的更新。事物文件存放更新请求。
23. 索引表和主文件一起构成索引文件。索引项由主关键字和该关键字所在的物理地址组成的。主文件按主关键字有序称为索引顺序文件,否则称索引非顺序文件。
24. 为每一个记录建立一个索引项,称稠密索引,让文件中的每个页块对应一个索引项,称稀疏索引。
25. 索引文件在存储器上分两个区,索引区和数据区,前者存放索引表,后者存放主文件。
26. 为索引建立一个索引称为查找表,查找表列出该块中最大的关键字及该块的地址。
27. 索引顺序文件:常用的有ISAM(索引顺序存取方法,顺序存取,静态索引结构)和VSAM(虚拟存储存取方法,随机存取,索引顺序文件组织方式,采用B+树作为动态索引结构)文件。
28. ISAM文件由多级主索引(最前面一个磁道)、柱面索引(主索引后的磁道)、磁道索引(每个存放主文件的柱面)和主文件组成。柱面最后若干个磁道是溢出区。
29. VSAM文件由索引集,顺序集和数据集三部分组成。文件的记录均存放在数据集中,数据集中的一个结点称为控制区间,顺序集中的一个结点连同其对应的所有控制区间形成一个整体,称作控制区域。
30. 散列文件亦称直接存取文件,若干个记录组成一个存储单位,叫做桶。当桶已有m个同义词的记录时,会发生溢出,主要采用拉链法处理冲突。溢出桶,基桶。
31. 包含有多个次关键字索引的文件称为多关键字文件。多重文件表文件,将具有相同关键字的记录链成一个链表。
32. 倒排文件:次关键字索引的结构不同,在倒排表中开列具有该次关键字记录的物理地址。倒排表提高查找速度。