计算机二级数据结构与算法.ppt
1.基本数据结构与算法(10.22%),1.1 算法(0.82%),1.1.1 算法(algorithm)基本概念定义:算法是指解题方案的准确而完整的描述。算法不等于程序,不等于计算方法。只能说程序是算法的一种描述,所以,程序不可能优于算法的设计。算法是指一系列解决问题的清晰指令。特征:算法具有可行性、确定性、有穷性、输入和输出(拥有足够的情报)等个重要特性。,1.1.2 算法的基本要素 1、对数据的运算和操作算术运算逻辑运算关系运算数据传输2、算法的控制结构算法中各操作之间的执行顺序描述算法的工具通常有传统流程图、N-S结构化流程图、算法描述语言等一个算法一般可以用顺序、选择、循环三种基本机构组合而成。,1.1.3 算法设计基本方法列举法归纳法递推递归减半递推技术回溯法,1.2 算法复杂度,1.2.1 时间复杂度 所谓算法的时间复杂度,是指执行算法所需要的计算工作量。可以用算法在执行过程中所需要的基本运算的执行次数来度量算法的工作量。,1.2.2 算法的空间复杂度一般是指执行这个算法所需要的内存空间一个算法所占用的存储空间包括算法程序所占的空间、输入的初始数据所占的存储空间以及某种数据结构所需要的附加存储空间,1.2 数据结构(0.96%),数据结构的定义数据的逻辑结构和存储结构数据结构的图形表示线性结构与非线性结构,数据结构是一门研究数据组织、存储和运算的一般方法的学科。,1.2.2 基本概念和术语,能输入到计算机中并能被计算机程序处理的符号的集合。,整数(1,2)、实数(1.1,1.2)字符串(Beijing)、图形、声音。,1.2.2 基本概念和术语,数据结构是一门研究数据组织、存储和运算的一般方法的学科。,1.2.2 基本概念和术语,计算机管理图书问题 在图书馆里有各种卡片:有按书名编排的、有按作者编排的、有按分类编排如何将查询图书的这些信息存入计算机中既要考虑查询时间短,又要考虑节省空间,数据结构是一门研究数据组织、存储和运算的一般方法的学科。,最简单的办法之一是建立一张表,每一本书的信息在表中占一行,如,1.2.2 基本概念和术语,数据结构是一门研究数据组织、存储和运算的一般方法的学科。,如何将0,1,2,3,4,5,6,7,8,9这10个数存放在计算机中能最快地达到你所需要的目的?目的不同,最佳的存储方方法就不同。从大到小排列:9,8,7,6,5,4,3,2,1,0输出偶数:0,2,4,6,8,1,3,5,7,9,数据元素在计算机中的表示,数据结构是一门研究数据组织、存储和运算的一般方法的学科。,1.2.2 基本概念和术语,对数据结构中的节点进行操作处理(插入、删除、修改、查找、排序),1.2.2 基本概念和术语,数据结构是一门研究数据组织、存储和运算的一般方法的学科。,数据元素(Data Element),数据元素是数据的基本单位,即数据集合中的个体。有时一个数据元素可由若干数据项(Data Item)组成。数据项是数据的最小单位。,数据元素亦称节点或记录。,数据结构可描述为 B=(D,R),有限个数据元素的集合,有限个节点间关系的集合,1数据的逻辑结构,2、数据的存储(物理)结构,3、数据的运算:检索、排序、插入、删除、修改等。,A线性结构,B非线性结构,A 顺序存储,B 链式存储,线性表,栈,队,树形结构,图形结构,数据结构的三个方面,数据结构可描述为 B=(D,R),线性结构,A,B,C,,X,Y,Z,学 生 成 绩 表,线性表结点间是以线性关系联结,1数据的逻辑结构,2、数据的存储结构,3、数据的运算:检索、排序、插入、删除、修改等。,A线性结构,B非线性结构,A 顺序存储,B 链式存储,线性表,栈,队,树形结构,图形结构,数据结构的三个方面,数据结构可描述为 B=(D,R),树形结构,全校学生档案管理的组织方式,计算机程序管理系统也是典型的树形结构,树形结构 结点间具有分层次的连接关系,1数据的逻辑结构,2、数据的存储结构,3、数据的运算:检索、排序、插入、删除、修改等。,A线性结构,B非线性结构,A 顺序存储,B 链式存储,线性表,栈,队,树形结构,图形结构,数据结构的三个方面,(亦称物理结构),D=1,2,3,4 R=(1,2),(1,3),(1,4),(2,3)(3,4),(2,4),D=1,2,3 R=(1,2),(2,3),(3,2),(1,3),图形结构节点间的连结是任意的,1数据的逻辑结构,2、数据的存储结构,3、数据的运算:检索、排序、插入、删除、修改等。,A线性结构,B非线性结构,A 顺序存储,B 链式存储,线性表,栈,队,树形结构,图形结构,数据结构的三个方面,(亦称物理结构),元素n,.,元素i,.,元素2,元素1,Lo,Lo+m,Lo+(i-1)*m,Lo+(n-1)*m,存储地址,存储内容,Loc(a)=Lo+(i-1)*m,顺序存储,每个元素所占用的存储单元个数,元素n,.,元素i,.,元素2,元素1,存储内容,顺序存储结构常用于线性数据结构,将逻辑上相邻的数据元素存储在物理上相邻的存储单元里。,顺序存储结构的三个弱点:1.作插入或删除操作时,需移动大量元数。2.长度变化较大时,需按最大空间分配。3.表的容量难以扩充。,1数据的逻辑结构,2、数据的存储结构,3、数据的运算:检索、排序、插入、删除、修改等。,A线性结构,B非线性结构,A 顺序存储,B 链式存储,线性表,栈,队,树形结构,图形结构,数据结构的三个方面,(亦称物理结构),1536,元素2,1400,元素1,1346,元素3,元素4,1345,h,链式存储,每个节点都由两部分组成:数据域和指针域。数据域存放元素本身的数据,指针域存放指针。数据元素之间逻辑上的联系由指针来体现。,1536,元素2,1400,元素1,1346,元素3,元素4,head,链式存储,1345,1536,元素2,1400,元素1,1346,元素3,元素4,1345,h,链式存储,1.比顺序存储结构的存储密度小(每个节点都由数据域和指针愈组成)。2.逻辑上相邻的节点物理上不必相邻。3.插入、删除灵活(不必移动节点,只要改变节点中的指针)。,链接存储结构特点:,1数据的逻辑结构,2、数据的存储结构,3、数据的运算:检索、排序、插入、删除、修改等。,A线性结构,B非线性结构,A 顺序存储,B 链式存储,线性表,栈,队,树形结构,图形结构,数据结构的三个方面,(亦称物理结构),线性结构和非线性结构,如果一个非空的数据结构满足下列两个条件:有且只有一个根结点;每一个结点最多有一个前件,也最多有一个后件则称该数据结构为线性结构(又称为线性表)。一个线性结构中插入或删除任何一个节点后还应是线性结构。如果一个数据结构不是线性结构,则称之为非线性结构。线性与非线性结构都可以是空的数据结构。,1.3 线性表(0.24%),1.3.1 线性表的定义 线性表是n个元素的有限序列,它们之间的关系可以排成一个线性序列:a1,a2,ai,an其中n称作表的长度,当n=0时,称作空表。,线性表的特点:1.线性表中所有元素的性质相同。2.除第一个和最后一个数据元素之外,其它数据元素有且仅有一个前驱和一个后继。第一个数据元素无前驱,最后一个数据元素无后继。3.数据元素在表中的位置只取决于它自身的序号。在线性表上常用的运算有:初始化、求长度、取元素、修改、插入、删除、检索、排序。,1.3.2 线性表的顺序存储结构及其插入与删除操作,特点:1、线性表中数据元素类型一致,只有数据域,存储空间利用率高。2、所有元素所占的存储空间是连续的 3、各数据元素在存储空间中是按逻辑顺序依次存放的 2.做插入、删除时需移动大量元素。3.空间估计不明时,按最大空间分配。,元素an,.,元素ai,.,元素a2,元素a1,b,b+m,b+(i-1)*m,b+(maxlen-1)*m,存储地址,内存状态,Loc(元素i)=b+(i-1)*m,顺序存储结构示意图(顺序表):,首地址起始地址基地址,每个元素所占用的存储单元个数,.,a2,a1,an,.,ai+1,ai,0,1,i-1,i,n-1,1-1插入运算,ai-1,.,a2,a1,alength,ai+1,ai,x,x,插入算法的分析 假设线性表中含有n个数据元素,在进行插入操作时,若假定在n+1个位置上插入元素的可能性均等,则平均移动元素的个数为:,删除算法的分析 在进行删除操作时,若假定删除每个元素的可能性均等,则平均移动元素的个数为:分析结论 顺序存储结构表示的线性表,在做插入或删除操作时,平均需要移动大约一半的数据元素。当线性表的数据元素量较大,并且经常要对其做插入或删除操作时,这一点需要值得考虑。,1.4 栈和队列(3.47%),1.4.1 栈和队列的定义 栈和队列是两种特殊的线性表,它们是运算时要受到某些限制的线性表,故也称为限定性的数据结构。,1.4.1.1栈的定义栈:限定只能在表的一端进行插入和删除的特殊的线性表,此种结构称为后进先出设栈s=(a1,a2,.,ai,.,an),其中a1是栈底元素,an是栈顶元素。栈顶(top):允许插入和删除的一端;约定top始终指向新数据元素将存放的位置。栈底(bottom):不允许插入和删除的一端。,队列的主要运算,(1)设置一个空队列;(2)插入一个新的队尾元素,称为进队;(3)删除队头元素,称为出队;(4)读取队头元素;,1.4.1.2 队列的定义定义:一种特殊的线性结构,限定只能在表的一端进行插入,在表的另一端进行删除的线性表。此种结构称为先进先出(FIFO)表。,a1,a2,a3,a4,an-1,an,队 列 示 意 图,队头,队尾,1.4.2 栈的顺序存储结构及其基本运算,用顺序存储结构表示的栈。顺序栈用一组连续的存储单元存放自栈底到栈顶的数据元素,一般用一维数组表示,设置一个简单变量top指示栈顶位置,称为栈顶指针,它始终指向待插入元素的位置。,基本运算:压(进)栈:PUSH出栈:POP,队空时,令rear=front=-1,当有新元素入队时,尾指针加1,当有元素出队时,头指针加1。故在非空队列中,头指针始终指向队头元素前一个位置,而尾指针始终指向队尾元素的位置,1.4.3 队列的顺序存储结构及其基本运算,1.5 线性链表(线性表的链式存储结构)(0.24%),线性链表循环链表,结构及其基本运算,1.5.1 线性表的链式存储结构,将线性表的元素放到一个具有头指针的链表中,链表中每个结点包含数据域和指针域。数据域存放数据,指针域存放后继结点的地址,最后一个结点的指针域为空。逻辑上相邻的数据元素在内存中的物理存储空间不一定相邻。,上图的线性表为ZHAO,QIAN,SUN,LI,ZHOU,WU,ZHENG,WANG,线性链表表示法:,链式存储结构的特点,插入、删除灵活方便,不需要移动结点,只要改变结点中指针域的值即可。适合于线性表是动态变化的,不进行频繁查找操作、但经常进行插入删除时使用。链表的查找只能从头指针开始顺序查找。,1.5.2 循环链表:首尾相接的链表。将最后一个结点的空指针改为指向头结点,从任一结点出发均可找到其它结点。,L,.,带头结点的单链表,L,.,循环单链表,1.5.3 双向链表 在每个结点中设置两个指针,一个指向后继,一个指向前驱。可直接确定一个结点的前驱和后继结点。可提高效率。,data,next,before,1.6 树与二叉树(2.93%),树的基本概念二叉树的定义及其存储结构二叉树的前序、中序和后序遍历,1.6.1 树的定义 由一个或多个结点组成的有限集合。仅有一个根结点,结点间有明显的层次结构关系。,现实世界中,能用树的结构表示的例子:学校的行政关系、书的层次结构、人类的家族血缘关系等。,介绍几个概念:结点(Node):树中的元素,包含数据项及若干指向其子树的分支。结点的度(Degree):结点拥有的子树数。结点的层次:从根结点开始算起,根为第一层。叶子(Leaf):度为零的结点,也称端结点。孩子(Child):结点子树的根称为该结点的孩子结点。兄弟(Sibling):同一双亲的孩子。双亲(Parent):孩子结点的上层结点,称为这些结点的双亲。深度(Depth):树中结点的最大层次数。森林(Forest):M棵互不相交的树的集合。,1.6.2 二叉树(Binary Tree),1、二叉树的定义及其性质(1)二叉树的定义,二叉树的五种基本形态,二叉树一种特殊的树型结构,特点是树中每个结点只有两棵子树,且子树有左右之分,次序不能颠倒。,因为树的每个结点的度不同,存储困难,使对树的处理算法很复杂。所以引出二叉树的讨论。,二叉数是n(n0)个结点的有限集合。它或为空数(n=0),或由一个根结点和两棵分别称为根的左子树和右子树的互不相交的二叉数组成。,特别要注意:二叉数不是树的特殊情况。,a,a,b,b,两棵不同的二叉数,A、二叉树的第i层上至多有2 i-1(i 1)个结点。,(2)二叉树的基本性质,第三层上(i=3),有23-1=4个节点。第四层上(i=4),有24-1=8个节点。,A、二叉树的第i层上至多有2 i-1(i 1)个结点。B、深度为h的二叉树中至多含有2h-1个结点。,(2)二叉树的基本性质,此树的深度h=4,共有24-1=15个节点。,A、二叉树的第i层上至多有2 i-1(i 1)个结点。B、深度为h的二叉树中至多含有2h-1个结点。C、若在任意一棵二叉树中,有n0个叶子结点,有n2个度为2的结点,则:n0=n2+1,(2)二叉树的基本性质,n0=8n2=7,(3)满二叉树,特点:每一层上都含有最大结点数。,(4)完全二叉树,特点:除最后一层外,每一层都取最大结点数,最后一层结点都集中在该层最左边的若干位置。,(5)树与二叉树的区别,A树的结点个数至少为1,而二叉树的结点个数可以为0。B树中结点的最大度数没有限制,二叉树结点最大度数为2。C树的结点无左、右之分,二叉树的结点子树有明确的左、右之分。,树,二叉树,1.6.3 二叉树的遍历 查找某个结点,或对二叉树中全部结点进行某种处理,就需要遍历。(1)遍历定义及遍历算法 遍历是指按某条搜索路线寻访树中每个结点,且每个结点只被访问一次。按先左后右的原则,一般使用三种遍历:先序遍历(D L R):访问根结点,按先序遍历左子树,按先序遍历右子树。中序遍历(L D R):按中序遍历左子树,访问根结点,按中序遍历右子树。后序遍历(L R D):按后序遍历左子树,按后序遍历右子树,访问根结点。二叉树为空时,执行空操作,即空二叉树已遍历完。,(2)遍历算法,先序遍历:D L R中序遍历:L D R后序遍历:L R D,A,D,B,C,T1,T2,T3,D L R,以先序遍历D L R为例演示遍历过程,ABDC,BDAC,DBCA,1.7 查找和排序,顺序查找与二分查找算法基本排序算法(交换类排序、选择类排序、插入类排序),1.7.1 查找(0.89%),查找是在一个给定的数据结构中,根据给定的条件查找满足条件的结点。不同的数据结构采用不同的查找方法。查找的效率直接影响数据处理的效率。查找的结果:查找成功:找到满足条件的结点查找失败:找不到满足条件的结点。,1.7.1.1 顺序查找(线性查找),查找过程:对给定的一关键字K,从线性表的一端开始,逐个进行记录的关键字和K的比较,直到找到关键字等于K的记录或到达表的另一端。可以采用从前向后查,也可采用从后向前查的方法。在平均情况下,大约要与表中一半以上元素进行比较,效率较低。平均查找长度较大。在下面两种情况下只能采取顺序查找:a.线性表为无序表(元素排列是无序的);b.即使是有序线性表,但采用的是链式存储结构。最坏比较n次。,2.7.1.2 折半查找(二分法查找),思想:先确定待查找记录所在的范围,然后逐步缩小范围,直到找到或确认找不到该记录为止。前提:必须在具有顺序存储结构的有序表中进行。分三种情况:1)若中间项的值等于x,则说明已查到。2)若x小于中间项的值,则在线性表的前半部分查找;3)若x大于中间项的值,则在线性表的后半部分查找。特点:比顺序查找方法效率高。最坏的情况下,需要比较 log2n次。,查找23和79的过程如下图:,mid=(low+high)/2不进位取整,(08,14,23,37,46,55,68,79,91),(08,14,23,37,46,55,68,79,91),(08,14,23,37,46,55,68,79,91),(08,14,23,37,46,55,68,79,91),(08,14,23,37,46,55,68,79,91),(08,14,23,37,46,55,68,79,91),(08,14,23,37,46,55,68,79,91),1.7.2 排序(0.6%),1.7.2.1 概述1、排序的功能:将一个数据元素(或记录)的任意序列,重新排成一个按关键字有序的序列。2、排序过程的组成步骤:首先比较两个关键字的大小;然后将记录从一个位置移动到另一个位置。,排序方法,插入排序,选择排序,交换排序,简单插入排序,希尔排序,简单选择排序,堆排序,冒泡排序,快速排序,1.7.2.2 插入排序 简单插入、希尔,1、简单插入排序:基本思想:从数组的第2号元素开始,顺序从数组中取出元素,并将该元素插入到其左端已排好序的数组的适当位置上。最坏情况需要n(n-1)/2次比较,该算法适合于n 较小的情况,时间复杂度为O(n2).,待排元素序列:53 27 36 15 69 42第一次排序:27 53 36 15 69 42第二次排序:27 36 53 15 69 42第三次排序:15 27 36 53 69 42第四次排序:15 27 36 53 69 42第五次排序:15 27 36 42 53 69 直接插入排序示例,对于有n个数据元素的待排序列,插入操作要进行n-1次,2、希尔排序书43页图1.39比较次数为O(n1.5),1、简单选择排序 思想:首先从1n个元素中选出关键字最小的记录交换到第一个位置上。然后再从第2 个到第n个元素中选出次小的记录交换到第二个位置上,依次类推。时间复杂度为O(n2),最坏情况下需要比较 n(n-1)/2次 适用于待排序元素较少的情况。,1.7.2.3 选择排序 简单选择排序、堆排序,初态,8 3 9 1 6,8 3 9 1 6,8 3 9 1 6,8 3 9 1 6,1 3 9 8 6,1 3 9 8 6,1 3 9 8 6,2堆排序也是一种选择排序。是具有特定条件的顺序存储的完全二叉树,其特定条件是:任何一个非叶子结点的关键字大于等于(或小于等于)子女的关键字的值。(1)堆的示例,(a):堆顶元素取最大值,(b):堆顶元素取最小值,(2)实现堆排序需解决两个问题:(1)如何由一个无序序列建成一个堆?(2)输出堆顶元素后,如何将剩余元素调整成一个新的堆?,堆排序需要比较的次数为O(nlog2n),1.7.2.4 交 换 排 序交换排序的特点在于交换。有冒泡和快速排序两种。1、冒泡排序(起泡排序)思想:小的浮起,大的沉底。从左端开始比较。第一趟:第1个与第2个比较,大则交换;第2个与第3个比较,大则交换,关键字最大的记录交换到最后一个位置上;第二趟:对前n-1个记录进行同样的操作,关键字次大的记录交换 到第n-1个位置上;依次类推,则完成排序。正序:时间复杂度为O(n)逆序:时间复杂度为O(n2)适合于数据较少的情况。排序n个记录的文件最多需要n-1趟冒泡排序。,第六趟排序后,第五趟排序后,第四趟排序后,第三趟排序后,第二趟排序后,第一趟排序后,初始关键字,思想:小的浮起,大的沉底。,2、快速排序(对冒泡排序的改进)思想:通过一趟排序将待排序列分成两部分,使其中一部分记录的关键字均比另一部分小,再分别对这两部分排序,以达到整个序列有序。关键字通常取第一个记录的值为基准值。做法:附设两个指针low和high,初值分别指向第一个记录和最后一个记录,设关键字为 key,首先从 high所指位置起向前搜索,找到第一个小于基准值的记录与基准记录交换,然后从low 所指位置起向后搜索,找到第一个大于基准值的记录与基准记录交换,重复这两步直至low=high为止。时间复杂度:O(log2n)最坏:n(n-1)/2,快速排序过程示意图:,有序序列 6 18 23 52 67,key,low,high,一次交换 18 52 6 67 23,low,high,二次交换 18 23 6 67 52,high,三次交换 18 6 23 67 52/完成一趟排序后分别进行快速排序,low,high,1.7.2.5 内部排序方法的选择各种排序方法各有优缺点,故在不同情况下可作不同的选择。通常需考虑的因素有:待排序的记录个数;记录本身的大小;记录的键值分布情况等。若待排序的记录个数n较小时,可采用简单排序方法。若n 较大时,应采用快速排序或堆排序。若待排序的记录已基本有序,可采用起泡排序。,