定义
数据结构(data structure)是带有结构特性的数据元素的集合,它研究的是数据的逻辑结构和数据的物理结构以及它们之间的相互关系,并对这种结构定义相适应的运算,设计出相应的算法,并确保经过这些运算以后所得到的新结构仍保持原来的结构类型。简而言之,数据结构是相互之间存在一种或多种特定关系的数据元素的集合,即带“结构”的数据元素的集合。“结构”就是指数据元素之间存在的关系,分为逻辑结构和存储结构。
数据的逻辑结构和物理结构是数据结构的两个密切相关的方面,同一逻辑结构可以对应不同的存储结构。算法的设计取决于数据的逻辑结构,而算法的实现依赖于指定的存储结构。
数据结构的研究内容是构造复杂软件系统的基础,它的核心技术是分解与抽象。通过分解可以划分出数据的3个层次;再通过抽象,舍弃数据元素的具体内容,就得到逻辑结构。类似地,通过分解将处理要求划分成各种功能,再通过抽象舍弃实现细节,就得到运算的定义。上述两个方面的结合可以将问题变换为数据结构。这是一个从具体(即具体问题)到抽象(即数据结构)的过程。然后,通过增加对实现细节的考虑进一步得到存储结构和实现运算,从而完成设计任务。这是一个从抽象(即数据结构)到具体(即具体实现)的过程。
常用的数据结构
数组(Array)
数组是一种聚合数据类型,它是将具有相同类型的若干变量有序地组织在一起的集合。数组可以说是最基本的数据结构,在各种编程语言中都有对应。一个数组可以分解为多个数组元素,按照数据元素的类型,数组可以分为整型数组、字符型数组、浮点型数组、指针数组和结构数组等。数组还可以有一维、二维以及多维等表现形式。
栈( Stack)
栈是一种特殊的线性表,它只能在一个表的一个固定端进行数据结点的插入和删除操作。栈按照后进先出的原则来存储数据,也就是说,先插入的数据将被压入栈底,最后插入的数据在栈顶,读出数据时,从栈顶开始逐个读出。栈在汇编语言程序中,经常用于重要数据的现场保护。栈中没有数据时,称为空栈。
队列(Queue)
队列和栈类似,也是一种特殊的线性表。和栈不同的是,队列只允许在表的一端进行插入操作,而在另一端进行删除操作。一般来说,进行插入操作的一端称为队尾,进行删除操作的一端称为队头。队列中没有元素时,称为空队列。
链表( Linked List)
链表是一种数据元素按照链式存储结构进行存储的数据结构,这种存储结构具有在物理上存在非连续的特点。链表由一系列数据结点构成,每个数据结点包括数据域和指针域两部分。其中,指针域保存了数据结构中下一个元素存放的地址。链表结构中数据元素的逻辑顺序是通过链表中的指针链接次序来实现的。
树( Tree)
树是典型的非线性结构,它是包括,2个结点的有穷集合K。在树结构中,有且仅有一个根结点,该结点没有前驱结点。在树结构中的其他结点都有且仅有一个前驱结点,而且可以有聊个后继结点,m≥0。
图(Graph)
图是另一种非线性数据结构。在图结构中,数据结点一般称为顶点,而边是顶点的有序偶对。如果两个顶点之间存在一条边,那么就表示这两个顶点具有相邻关系。
堆(Heap)
堆是一种特殊的树形数据结构,一般讨论的堆都是二叉堆。堆的特点是根结点的值是所有结点中最小的或者最大的,并且根结点的两个子树也是一个堆结构。
散列表(Hash)
散列表源自于散列函数(Hash function),其思想是如果在结构中存在关键字和T相等的记录,那么必定在F(T)的存储位置可以找到该记录,这样就可以不用进行比较操作而直接取得所查记录。
数据结构和算法起到的作用
数据结构是对计算机内存中(有时在磁盘中)的数据的一种安排。数据结构是存放数据物理结构在逻辑上的形式体现,常见的数据结构有数组、链表、栈、二叉树、哈希表等等。算法对这些结构中的数据进行各种处理,例如,查找一条特殊的数据项或对数据进行排序。数据结构和处理技术(即算法)可以解决如下问题
现实世界数据的存储
现实世界中有很多信息,有些信息是强相关的,比如一个人的身高、体重、年龄等等,这些信息不是随便放的,就像你不会把厨房里的锅放在卧室里面,铲子放到卫生间里面,我们需要一个统一地方存放这些信息,在物理上就是放在存储空间里面,比如硬盘或内存,在逻辑形式上就是上面提到的各种数据结构,比如数组、链表等等。
现实世界的建模
一些数据具有很强的实用性,就是与相应的事件对应起来,比如队列可以模拟顾客在银行中排队等待。
数据结构的概述
数据结构与算法就是讨论这些数据结构的实现以及在数据结构上进行一些操作。
下面列出了一些数据结构优点和缺点
- 数组
插入快,如果知道下标,可以非常快地存取 查找慢,删除慢,大小固定 - 有序数组
比无序的数组查找快 删除和插入慢,大小固定 - 栈
提供后进先出方式的存取 存取其他项很慢 - 队列
提供先进先出方式的存取 存取其他项很慢 - 链表
插入快,删除快 查找慢 - 二叉树
查找、插入、删除都快(如果树保持平衡) 删除算法复杂 - 红-黑树
查找、插入、删除都快,树总是平衡的 算法复杂 - 2-3-4树
查找、插入、删除都快,树总是平衡的,树对磁盘存储有用 算法复杂 - 哈希表
如果关键字已知则存取极快,插入快 删除慢,如果不知道关键字则存取很慢,对存储空间使用不充分 - 堆
插入、删除快,对最大数据项的存取很快 对其他数据项存取慢 - 图
对现实世界建模 有些算法慢且复杂
数据结构除了数组之外都可以被认为是抽象数据结构(ADT),主要是数据的存储物理结构与逻辑结构并非拓扑结构上一致。
常用算法
数据结构研究的内容:就是如何按一定的逻辑结构,把数据组织起来,并选择适当的存储表示方法把逻辑结构组织好的数据存储到计算机的存储器里。研究的目的是为了更有效的处理数据,提高数据运算效率。数据的运算是定义在数据的逻辑结构上,但运算的具体实现要在存储结构上进行。一般有以下几种常用运算:
(1)检索。检索就是在数据结构里查找满足一定条件的节点。一般是给定一个某字段的值,找具有该字段值的节点。
(2)插入。往数据结构晕增加新的节点。
(3)删除。把指定的结点从数据结构中去掉。
(4)更新。改变指定节点的一个或多个字段的值。
(5)排序。把节点按某种指定的顺序重新排列。例如递增或递减。
过程性语言的问题
面向对象编程语言的产生是由于发现过程性语言在处理大小的复杂问题时有些力不从心。具体是哪些问题呢?
有两类问题:一是程序与现实世界缺乏对应关系,二是程序内部的结果出现了问题。
- 对现实世界建模的无能为力
使用过程语言对现实世界问题进行抽象即概念化十分困难:方法执行任务,而后数据存储信息,但是现实世界中的事物是对二者同时进行操作。 - 粗糙的组织结构
解决程序的内部组织结构是一个更微妙而且事关重大的问题。面向过程的程序被划分为一个个方法,这种基于方法组织形式的一个巨大问题是它仅仅考虑了方法,而没有重视数据。当不得不面对数据时,它没有太多的选择。简而言之,数据可以是一个特定的方法的局部量,也可以是所有方法都可以存取的全局量,就是无法规定一个变量只允许某些方法存取而不允许另一些方法存取。
Java数据结构的类库
Java.util包中含有诸如向量(一个可扩充的数组)、栈、库和哈希表等类型的数据结构。这些数据结构已经被实现并提供了相关操作方法。但是我们仍然需要学习别的数据结构,提供的数据结构是不够的。