第一章
绪论
用计算机求解任何问题都离不开程序设计,程序设计的实质是数据表示和数据处理。数据要能被计算机处理,首先必须能够存储在计算机的内存中,这项任务称为数据表示,其核心是数据结构;一个实际问题的求解必须满足各项处理要求,这项任务称为数据处理,其核心是算法。
1-1数据结构在程序设计中的作用
计算机不能分析问题并产生问题的解决方案,必须由人(既程序设计者)分析问题,确定问题的解决方案,采用计算机能够理解的指令描述这个问题的求解步骤(既编写程序),然后让计算机执行程序最终获得问题的解。
图灵奖获得者沃思给出了一个著名的公式:数据结构+算法=程序。从这个公式可以看出,数据结构和算法是构成程序的两个重要的组成部分,一个“好”程序首先是将问题抽象出一个适当的数据结构,然后基于该数据结构设计一个“好”算法。对于许多实际的问题,写出一个可以正确运行的程序还不够,如果这个程序在规模较大的数据集上运行,那么运行效率就成为一个重要的问题。
1-2本书讨论的主要内容
计算机能够求解的问题一般可以分为数值问题和非数值问题。数值问题抽象出的数据模型通常是数学方程,非数值问题抽象出的数据模型通常是线性、树、图等数据结构。
本书讨论非数值问题的数据组织和处理,主要内容有如下4点:
1)数据的逻辑结构:线性表、树、图等数据结构,其核心是如何组织待处理的数据以及数据之间的关系。
2)数据的存储结构;如何将线性表、树、图等数据结构存储到计算机的存储器中,其核心是如何有效地存储数据以及数据之间的逻辑关系。
3)算法:如何基于数据的某种存储结构实现插入、删除、查找的基本操作,其核心是如何有效地处理数据。
4) 常用数据处理技术:包括查找技术、排序技术、索引技术等。
1-3数据结构的基本概念
1-3-1数据结构
数据是信息的载体,所有能输入到计算机中并能被计算机程序识别和处理的符号集合。可以将数据分为两大类:一类是整数、实数等数值数据;另一类是文字、声音和图像等非数值数据。
数据元素是数据的基本单位,在计算机程序中通常作为一个整体进行考虑和处理。构成数据元素的不可分割的最小单位称为数据项。
数据结构是指相互之间存在一定关系的数据元素的集合。按照视点的不同,数据结构分为逻辑结构和存储结构。
逻辑结构是指数据元素之间逻辑关系的整体。根据数据元素之间逻辑关系的不同,数据结构分为以下四类:
1)集合:数据元素之间就是”属于同一个集合“,除此之外,没有任何关系。
2)线性结构:数据元素之间存在着一对一的线性关系。
3)树结构:数据元素之间存在着一对多的层次关系。
4)图结构:数据元素之间存在着多对多的任意关系。
树结构和图结构也称为非线性结构。
存储结构又称为物理结构,通常有两种存储结构:顺序存储结构和链接存储结构。
顺序存储结构的基本思想是:用一组连续的存储单元依次存储数据元素,数据元素之间的逻辑关系有元素的存储位置来表示。
链接存储结构的基本思想是:用一组任意的存储单元存储数据元素,数据元素之间的逻辑关系用指针来表示。
数据的逻辑结构是从具体问题抽象出来的数据模型,是面向问题的,反映了数据元素之间的关联方式或邻接关系。为了区别于数据的存储结构,常常将数据的逻辑结构称为数据结构。1-3-2抽象数据类型
1数据类型
数据类型是一组值的集合以及定义于这个值集上的一组操作的总称。
2抽象
所谓抽象,就是抽出问题本质的特征而忽略非本质的细节,是对具体事物的一个概括。
3抽象数据类型
抽象数据类型是一个数据结构以及定义在该结构上的一组操作的总称。
1-4算法计算法分析
1-4-1算法及其描述方法
1什么是算法
算法被公认为是计算机科学的基石。算法是对特定问题求解步骤的一种描述,是指令的有限序列。
算法必须满足下列5个重要特性
1)输入:一个算法优零个或多个输入,这些输入通常取自于某个特定的对象集合。
2)输出:一个算法有一个或多个输出,通常输出与输入之间有着某种特定的关系。
3)有穷性:一个算法必须总是在执行有穷步之后结束,且每一部都在又穷时间内完成。
4)确定性:算法中的每一条指令必须有确切的含义,不存在二义性。并且,在任何条件下,对于相同的输入只能得到相同的输出。
5)可行性:算法描述的操作可以通过已经实现的基本操作执行有限次来实现。
程序是对一个算法使用某种程序设计语言的具体实现,原则上,算法可以用任何一种设计语言实现。
2什么是“好”算法
须具备以下条件:
1正确性;2鲁棒性;3简单性;4抽象分级;5高效性;
3算法的描述方法
1)自然语言
优点是:容易理解,缺点是:容易出现二义性,且算法都很冗长
2)流程图
优点是:直观易懂,缺点是:严密性不如程序设计语言,灵活性不如自然语言
3)程序设计语
由计算机直接执行,缺点是:抽象性差
4)伪代码
介于自然语言和程序设计语言之间
1-4-2算法分析
1.度量算法效率的方法
(1)事后统计
缺点:1编写程序实现算法将花费较多的时间和精力
2所得实验结果依赖于计算机的软硬件等环境等因素,有时容易掩盖算法本身的优劣
(2)事前分析估算
是一种对算法所消耗资源的一种估算方法
2算法的时间复杂度
问题规模是指输入量的多少,一般来说,他可以从问题描述中得到。
基本语句是执行次数与整个执行次数成正比的语句,基本语句对算法运行时间的贡献最大,是算命法中最重要的操作。
3最好、最坏和平均情况
如果数组的第一元素恰好就是k,算法只要比较一个元素就行了,这是最好情况;
如果数组的最后一个元素是k,算法就要比较n-1个元素,这是最坏情况;
如果在数组中查找到不同的元素k,假设数据是等概率分布,则平均要比较n/2个元素,这是平均情况;
4算法的空间复杂度
算法的空间复杂度是指在算法的执行过程中,需要的辅助空间数量。
5算法分析举例
算法的复杂度包括时间复杂度和空间复杂度,相比较而言,我们更注重算法的时间性能。