1、数据库系统概述
1.1数据库的4个基本概念
- 数据
数据是数据库中存储的基本对象。
- 描述事物的符号记录称为数据。
- 数据的含义称为数据的语义,数据与其语义是不可分的。
- 数据库
数据库,顾名思义,是存放数据的仓库。
- 数据库的定义:数据库是长期储存在计算机内、有组织的、可共享的大量数据的集合。
数据库中的数据按一定的数据模型组织、描述和储存,具有较小的冗余度、较高的数据独立性和易扩展性,并可以各种用户共享。
- 数据库具有永久存储、有组织和可共享以基本特点。
- 数据库管理系统
数据可管理系统
- 位于用户与操作系统之间的一层数据管理软件。
- 是基础软件,是一个大型复杂的软件系统。
数据库管理系统的用途
- 用于科学地组织和存储数据,高效地获取和维护数据。
数据库管理系统的主要功能
- 数据定义功能:提供了数据定义语言 DDL。
- 数据组织、存储和管理
- 数据操纵功能:提供了数据操作语言 DML
- 数据库的事务管理和运行管理
- 数据库的建立和维护功能
- 其他功能
- 数据库系统(DBS)
数据库是由数据库、数据库管理系统、应用程序和数据库管理员(DBA)组成的存储、管理、处理和维数据的系统。
2.数据库管理技术的生产和发展
数据管理
- 数据管理是指对数据进行分类、组织、编码、存储、检索和维护。
-数据处理的中心问题。、
数据管理技术发展过程
- 人工管理
- 文件系统
- 数据库系统
- 人工管理阶段
时期
- 20世纪50年代中之前
产生背景
- 应用背景:科学计算
- 硬件背景:无直接存取存储设备
- 软件背景:没有操作系统
- 处理方式:批处理
特点
数据的管理员:用户(程序员)
数据面向大的对象:某一应用程序
数据的共享程度:无共享,完全依赖程序
数据的独立性:不独立,完全依赖程序
数据的结构化:无结构化
数据控制能力:应用程序自己控制
数据不保存:计算某一课题时将数据输入,用完就撤走。
应用管理者:数据需要的应用程序是自己设计、说明和管理的。
数据不共享:数据是面向应用程序的,一组数据只能对应一个程序。
数据不具有独立性:数据的逻辑结构或物理结构发生变化后,必须对应用程序做出相应的修改。
- 文件系统阶段
时期
- 20世纪50年代末~60年代中
产生背景
- 应用背景:科学计算、数据管理
- 硬件背景:磁盘、磁鼓
- 软件背景:有文件系统
- 处理方式:联机实时处理、批处理
特点
- 数据的管理员:文件系统
- 数据面向的对象:某一应用
- 数据的共享程序:共享性差,冗余度大
- 数据的独立性:独立性差
- 数据的结构化:记录内有结构化、整理无结构
- 数据控制能力:应用程序
- 数据可以长期保存
- 由文件系统管理数据
- 数据共享性差,冗余度差
- 一个(或一组)文件基本上对应于一个应用程序,即文件系统还是面向应用的。
- 数据独立性差
- 文件系统中的文件是为某一特定应用服务的。
- 数据库系统阶段
时期
- 20世纪60年代末以来
产生背景
- 应用背景:大规模数据管理
- 硬件背景:大容量磁盘、磁盘阵列
- 软件背景:有数据库管理系统
- 处理方式:联机实时处理、分布处理、批处理
特点
数据的管理员:数据库管理系统
数据面向的对象:现实世界
数据的共享程序:共享性高,冗余度小
数据的独立性:具有高度的物理独立和一定的逻辑独立
数据的结构化:整体结构化,用数据模型描述
数据控制能力:由数据库管理系统提供数据安全性、完整性、并发控制和恢复能力
数据结构化
是数据库主要特征之一
整体结构化
- 不再仅仅针对某一个应用,而是面向全组织
- 不仅数据内部结构化,整体是结构化的,数据之间具有联系
- 数据记录可以变长
- 数据的最小存取单位是数据项
数据的结构用数据模型描述,:无需应用程序定
- 数据的共享性高、冗余度低且易扩充
- 数据面向整个系统,可以被多个用户、多个应用共享使用。
- 共享的好处
- 减少数据冗余,节约存储空间
- 避免数据之间的不相容性与不一致性
- 系统易扩充
- 独立性高
- 物理独立性:用户的应用程序与数据库中数据的物理程序存储是相互独立的。
- 逻辑独立性:用户的应用程序与数据库的逻辑结构是相互独立的。
- 数据由数据库管理系统统一管理和控制
- 数据的安全性保护:数据的安全性是指保护数据以防止不合法使用造成的数据泄密和破坏。
- 数据的完整性检查:数据的完整性指数据的数据的正确性、有效性和相容性。
- 并发控制:对多用户的并发操作加以控制和协调,防止相互干容而得到错误的结果。
- 数据库恢复:将数据库从错误的状态恢复到某一已知的正确状态。
- 总结
- 数据库是长期存储计算机有组织、大量、共享的数据集合。
- 可以提供各种用户共享,具有最小冗余度和较高的数据独立性。
- 数据库管理系统:
- 在数据库建立、运用和维护时对数据库统一控制。
- 保证数据的完整性和安全性
- 在多用户时使用数据库时进行并发控制,在发生故障后对数据库进行恢复。
3.数据模型
- 数据库中用数据模型整个工具来抽象、表示、和处理现实世界的数据与信息。
- 数据库模型是现实世界数据特征的抽象。
- 数据模型就是现实世界的模拟。
- 数据模型要满足三方面
- 能比较真实地模拟现实世界
- 容易为人所理解
- 便于在计算机上实现
- 数据库模型时数据系统的核心和基础
3.1 两类数据模型
数据模型分为两类(两个不同的层次)
- 概念模型 也称信息模型,按用户的观点来对数据和信息建模,用于数据库设计。
- 逻辑模型和物理模型
- 逻辑模型:只要包括层次模型、网状模型、关系模型、面向对象模型和对象关系模型、半结构化模型等。它是计算机系统的观点对数据建模,用于数据库管理系统(DBMS)实现。
- 物理模型:是对数据最底层的抽象,它描述数据在系统内部的表示方法和存取方法,在磁盘或磁带上的存储方法和存取方法,是面向计算机系统的。
- 现实世界中的客观对象抽象为概念模型
- 将现实世界抽象为信息世界
- 把概念模型转为某一数据库管理系统支持的世界模型
- 将信息世界转换为机器世界
3.2数据模型的组成要素
- 数据模型:严格定义就是一组概念的集合
- 数据模型通常由数据结构、数据操作和数据的完整性约束条件。
- 数据模型通常由数据结构、数据操作和数据的完整性约束条件。
- 数据结构
- 数据模型的数据结构
- 描述数据库的组成对象,以及对象之间的联系
- 描述的内容
- 与对象的类型、内容、性质有关
- 与数据之间联系有关的对象
- 数据结构是所描述的对象类型集合,是对系统静态特性的描述。
2. 数据操作
- 数据操作
- 是指对数据库中各种对象(型)的实例(值)允许执行的操作的集合,包括操作及有关的操作规则。
- 数据操作的类型
- 查询
- 更新(插入、删除、修改)
- 数据模型必须定义这些操作的确切含义、操作符号、操作规则以及实现操作语言。
- 数据操作是对系统动态特性的描述。
- 数据的完整性约束条件
- 数据的完整性约束条件是一组完整性规则
- 完整性规则:
- 给定的数据模型中世纪及其联系所具有的制约和遗存规则
- 用以限定符合数据模型的数据库状态以及状态的变化
- 以保证世纪的正确、有效和相容
数据模型对完整性约束条件的定义
- 反应和规定必须遵守的基本的通用的完整性约束条件。
- 提供定义完整性约束条件的机制,以反映具体应用所涉及的数据必须遵守的特定语句约束条件。
3.3概念模型
- 概念模型的用途
- 概念模型实际上是对现实世界到机器世界的一个中间层次。
- 用于信息世界的建模
- 是现实世界到机器世界的一个中间层次
- 是数据库设计的有力工具
- 数据库设计人员和用户之间进行交流的语言
- 对概念模型的基本要求
- 较强的语义表达能力
- 简单、清晰、易于用户理解
- 信息世界中的基本概念
- 实体:客观存在并可相互区别的事物称为实体。
- 属性:实体所具有的某一特性称为属性。
- 码:唯一标识实体的属性集称为码。
- 实体性:用实体名及其属性名集合来抽象和刻画同类实体,称为实体类。
- 实体集:同一类型实体的集合称为实体集。
- 联系:
- 现实世界中事物内部以及事物之间的联系在信息世界中反映为实体(型)内部的联系和实体(型)之间的联系。
- 实体内部的联系通常是指组成实体的各属性之间的联系。
- 实体之间的联系通知指不同实体集之间的联系。
- 实体之间的联系有一对一、一对多和多对多等多种类型。
- 一对一联系
如果对实体集A中的每一个实体,实体B中至多有一个(也可以没有)实体与之联系,反之亦然,称为一对一联系。- 一对多联系
如果对于实体集A中的每个实体,实体B中有n个实体(n>=0)与之联系,反之,对于实体集B中的每一个实体,实体集A中至多只有一个实体联系,称为一对多联系。- 多对多联系
如果对于实体集A中的每个实体,实体B中有n个实体(n>=0)与之联系,反之,对于实体集B中的每一个实体,实体集A中也有m个实体(m>=0),称为多对多联系。
- 实体-联系方法
- 用E-R 图来描述现实世界的概念模型
- E-R方法也称为E-R模型
3.4常用的数据模型
- 层次模型
- 网状模型
- 关系模型
- 面向对象数据模型
- 对象关系数据模型
- 半结构化数据模型
3.5层次模型
3.5.1层次模型的数据结构
满足你下面两个条件的基本层次联系的集合为层次模型
- 有且只有一个结点没有双亲结点,这个节点称为根结点。
- 根以外的其它结点有且只有一个双亲结点。
在层次模型中,
- 每个结点表示一个记录类型,
- 记录类型之间的联系用结点之间的联系用结点之间的连线(有向边)表示,
- 这种联系时父子之间的一对多联系。
- 所以层次数据库系统只能处理一对多的实体联系。
3.5.2层次模型的数据操纵于完整性约束
- 数据操纵:查询、插入、删除、更新
- 完整性约束条件
- 无响应的双亲结点值就不能插入子女节点值。
- 如果删除双亲节点值,则相应的子女结点值也被同时删除。
- 更新操作时,应更新所有相应记录,以保证数据的一致性。
3.5.3层次模型的优缺点
- 优点
- 层次模型的数据结构比较简单清晰
- 查询效率高,性能优于关系模型,不低于网状模型
- 层次数据模型提供了良好的完整性支持
- 缺点
- 结点之间的多多联系表示不自然
- 对插入和删除操作的限制多,应用程序的编写比较复杂
- 查询子女结点必须通过双亲结点
- 层次命令趋于程序化
3.6网状模型
- 网状数据库采用网状模型作为数据的组织方式
3.6.1网状模型的数据结构
满足下面两个条件的基本层次联系的集合为网状模型
- 允许一个以上的结点无双亲
- 一个结点可以有多个一个的双亲。
网状模型与层次模型的区别
- 网状模型允许多个结点没有双亲结点
-网状模型允许结点有多个双亲结点- 网状模型允许两个结点之间有多种联系
- 网状模型可以更直接地描述现实世界
- 层次模型实际上是网状模型的一个特例
多对多联系在网状模型中的表示
- 用网状模型间接表示多对多联系
- 方法:
- 将多对多联系直接分解成一对多联系
3.6.2 网状模型的操纵与完整性约束
- 网状数据库特性对数据操纵加了一些限制,提供了一定的完整性约束
- 码:唯一表示记录的数据项的集合
- 一个联系中双亲记录与子女记录之间是一对多联系
- 支持双亲记录和子女记录之间某些约束条件
3.6.3网状模型的优缺点
- 优点
- 能够更为直接地描述现实世界,如一个结点可以多个双亲
- 具有良好的性能,存取效率较高
- 缺点
- 结构比较复杂,而且随着应用环境的扩大,数据库的结构就变的越来越复杂,不利于最终用户掌握。
- DDL、DML语言复杂,用户不容易使用
- 记录之间联系是通过存取路径实现的,用户必须了解系统结构的细节
3.7关系模型
- 关系数据库采用关系模型作为世界的组织方式。
3.7.1关系模型的数据结构
- 在用户观点下,关系模型中世界的逻辑结构是一张二维表,由行和列组成。
- 关系:一个关系对应通常说的一张表
- 元组:表中的一行即为一个元组
- 属性:表中的一列即为一个属性,给每一个属性起一个名称即属性名
- 主码:也成为码键。表中的某一个属性组,它可以唯一确定一个元组
域:是一组具有相同数据类型的值的集合。属性的取值范围来自某个域。
分量:元组中的一个属性值- 关系模式
- 对关系的描述:关系名(属性1,属性2,…,属性n)
- 关系必须是规范化的,满足一定的规范化条件
- 最基本的规范条件:
- 关系的每一个分量必须是一个不可分的数据项
- 不允许表中还有表
3.7.2 关系模型的操纵与完整性约束
- 数据操作时集合操作,操作对象和操作结果都是关系
- 查询、插入、删除、更新
- 存取路径对用户隐蔽,用户只要指出”干什么“,不必详细说明”怎么干“
- 关系的完整性约束条件
- 实体完整性
- 参照完整性
- 用户定义的完整性
3.7.3关系模型的优缺点
- 优点
- 建立在严格的数学概念的基础上
- 关系模型的概念单一
- 实体和各类联系都用关系表示
- 对数据的检索结果也是关系
- 关系模型的存取路径对用户透明
- 具有更高的数据独立性,更好的安全保密性
- 简化了程序员的工作和数据库开发建立的工作
- 缺点
- 存取路径对用户透明,查询效率往往不如格式化数据模型
- 为提高性能,必须用户的查询请求进行优化,增加了开发数据库管理系统的难度
4、数据库系统的结构
4.1 数据库模式的概念
- 型和值的概念
- 型:对某一类数据的结构和属性说明
- 值:是型的一个具体复制
- 模式
- 数据库逻辑结构和特征的描述
- 是型的描述,不涉及具体值
- 反映的是数据的结构及其联系
- 模式是相对稳定的
- 实例
- 模式的一个具体值
- 反映数据库某一时刻的状态
- 同一个模式可以有很多实例
- 实例随数据库中的数据的更新而变动
4.2数据库系统的三级模式结构
- 数据库系统的三级模式结构是指数据库系统的由外模式、模式和内模式三级构成。
4.2.1模式
- 模式(也称逻辑模式)
- 数据库中全体数据的逻辑结构和特征的描述
- 所有用户的公共数据视图
- 一个数据库只用一个模式
- 模式的地位:是数据库系统模式结构的中间层
- 与数据的物理存取细节和硬件环境无关
- 与具体的应用程序
- 开发工具及高级程序设计语言无关
- 模式的定义
- 数据的逻辑结构
- 数据之间的联系
- 数据有关的安全性、完整性要求
4.2.2外模式
- 外模式(也称应用程序员和最终用户)
- 数据库用户(包括应用程序员和最终用户)使用的局部数据的逻辑结构和特征的描述
- 数据库用户的数据视图,是与某一应用有关的数据的逻辑表示
外模式的地位:介于模式与应用之间
- 模式与外模式的关系:一对多
- 外模式通常是模式的子集
- 一个数据库可以有多个外模式。
- 对模式中同一数据,在外模式中的结构、类型、长度、保密级别都可以不同
- 外模式与应用的关系:一对多
- 同一外模式也可以为某一用户的多个应用所使用
- 但一个应用程序只能使用一个外模式
- 外模式的用途
- 保证数据库安全性的一个有力措施
- 每个用户能看见和访问所对应的外模式的数据
4.2.3 内模式
- 内模式(也称存取模式)
- 是数据物理结构和存取方式的描述
- 是数据在数据库内部的表示方式
- 记录的存取方式
- 索引的组织方式
- 数据是否加密
- 数据存取记录结构的规定
- 一个数据库只有一个内模式
4.3 数据库的二级映像与数据独立性
- 三级模式是对数据的三个抽象级别
- 二级映像在数据库管理内部实现这个三个抽象层次的联系和转换
- 外模式/模式映像
- 模式/内模式映像
4.3.1外模式/模式映像
- 模式:描述的是数据的全局逻辑结构
- 外模式:描述的是数据的局部逻辑结构
- 每一个外模式,数据库系统都有一个外模式/模式映像,定义外模式与模式之间的对应关系
- 映像的定义通常包含在各自外模式的描述中
保证数据的逻辑独立
- 当模式改变时,数据库管理员对外模式/模式映像作相应改变,使外模式不变。
- 应用程序时依据数据的外模式编写的,应用程序不必修改,保证了数据与程序的逻辑独立性,简称数据的逻辑独立性。
4.3.2模式/内模式映像
- 模式/内模式映像定义了数据全局逻辑结构与存取结构之间的对应关系。
- 数据库中模式/内模式映像的唯一的
- 该映像定义通常包含在模式描述中
保证数据的物理独立性
- 当数据库的存取结构变了,数据库管理眼修改模式/内模式映像,使模式保持怖不变。
- 应用程序不受映像。保证了数据与程序的物理独立性,简称数据的物理独立性。
数据库模式
- 即全局逻辑结构是数据库的中心与关键
- 独立于数据库的其他层次
- 设计数据库模式结构时应首先确定数据库的逻辑模式
数据库的内模式
- 依赖于它的全局逻辑结构
- 独立于数据库的用户视图,即外模式
- 独立于具体的存取设备
- 将全局逻辑结构中所定义的数据结构及其联系按照一定的物理存取策略进行组织,以达到较好的时间与空间效率
特定的应用程序
- 在外模式描述的数据结构上编制的
- 依赖于特定的外模式
- 与数据库的模式和存取结构独立
- 不同的应用程序有时可以共用同一个外模式
数据库的二级映像
- 保证了数据库外模式的稳定性
- 从底层保证了应用程序的稳定性,除非应用需求本身发生变化,否则应用程序一般不需要修改
数据库与程序之间的独立性使得数据的定义和描述可以从应用程序中分离出去。
数据库系统管理
- 简化了应用程序的编制
- 大大减少了应用程序的维护和修改
5.数据库系统的组成
- 数据库系统一般由数据库、数据库管理系统(及其应用开发工具)、应用程序和数据库管理员构成。
- 硬件平台及数据库、软件、人员
5.1硬件平台及数据库
数据库系统对硬件资源的要求
- 足够大的内存
- 足够的大的磁盘或磁盘阵列等设备
- 较高的通道能力,提高数据传输送率
5.2软件
- 数据库管理系统
- 支持数据库管理系统运行的操作系统
- 与数据库接口的高级语言及其编译系统
- 以数据库管理系统为核心的应用开发工具
- 为特定应用环境开发的数据库应用系统
5.3人员
- 开发、管理和使用数据库系统的人员主要包括数据库管理员、系统分析员和数据库设计人员、应用程序员和最终用户。
5.3.1数据库管理员
- 数据库系统环境下有两类共享资源,一类是数据库,另一类是数据库管理系统软件。
- 数据库管理员是负责全面管理和控制数据库系统。
具体职责:
- 决定数据库中的信息内容和结构。
- 决定数据库的存取结构和存取策略。
- 定义数据的安全性要求和完全性约束条件。
- 监控数据库的使用和运行
- 周期性转储数据库
- 数据文件
- 日志文件
- 系统故障恢复
- 介质故障恢复
- 监听 审计文件
5 数据库的改进和重组
- 性能监控和调优
- 定期对数据库进行重组织,以提高系统的性能
- 需求增加和改变时,需要对数据库重新构造
5.3.2系统分析员和数据库设计人员
- 系统分析员
- 负责应用系统的需求分析和规范说明
- 与用户及数据库管理员集合结合,确定系统的硬软配置
- 参与数据库系统的概要设计
- 数据库设计人员
- 负责数据库中数据的确定及数据库各级模式的设计
- 参加用户需求调查和系统分析
- 进行数据库设计
5.3.3应用程序员
- 设计和编写应用系统的程序模块
- 进行调试和安装
5.3.4用户
- 用户是之最终用户。最终用户通过系统的用户接口使用数据库。
1.偶软用户
2.简单用户
3.复杂用户