第三章 数据库技术基础
-
三级模式–两级映像、数据库设计、E–R模型、关系模型、关系代数的运算
-
规范化基础、函数依赖、键与约束、范式、模式分解、并发控制
-
数据库安全、分布式数据库、数据仓库、反规范化技术、大数据、SQL语言
1.基本概念
专有名词:数据data:Data、数据库DB:DataBase、数据库系统DBS、数据库管理系统DBMS。
- 数据库系统DBS:是一个采用了数据库技术,有组织地、动态地存储大量相关数据,方便多用户访问的计算机系统。由四个部分组成:
- 数据库(统一管理、长期存储在计算机内的,有组织地相关数据的集合)
- 硬件(构成计算机系统包括存储数据所需的外部设备)
- 软件(操作系统、数据库管理系统DBMS及应用程序)
- 人员(系统分析和数据库设计人员、应用程序员、最终用户、数据库管理员DBA)
- 数据库管理系统DBMS的功能:
- 实现对共享数据有效的组织、管理和存取。
- 包括数据定义、数据库操作、数据库运行管理、数据的存储管理、数据库的建立和维护等。
2.三级模式–两级映像
- 内模式:管理如何存储物理的数据,对应具体物理存储文件。
- 模式:又称概念模式,就是通常使用的基本表、根据应用、需求将物理数据划分成一张张表。
- 外模式:对应数据库中的视图这个级别,将表进行一定的处理后再提供给用户使用。
- 内模式–模式映像:是表和视图之间的映射,存在于概念级和外部级之间,若表中数据发生了修改,只需要修改此映射,而无需修改应用程序。保证了数据的物理独立性。
- 模式–外模式映像:是表和数据的物理存储之间的映射,存在于概念级和内部级之间,若修改了数据存储方式,只需要修改此映射,而不需要去修改应用程序。保证了数据的逻辑独立性。
内模式—模式—外模式:从物理到逻辑。
(一个数据库系统中,外模式可以有多个,而模式和内模式只有有一个!!!)
外模式—模式—内模式 分别对应:视图——基本表——文件
3.数据库设计
- 需求分析:即分析数据存储的要求,产出物有数据流图、数据字典、需求说明书。
- 概念结构设计:就是设计E–R图,即实体–属性图,与物理实现无关,说明有哪些实体,实体有哪些属性。
- 逻辑结构设计:将E–R图转换成关系模式。
- 物理设计:根据生成的表等概念,生成物理数据库。
4.E–R模型
- 数据模型三要素:数据结构、数据操作、数据的约束条件。
- E–R图:即实体–联系模型,使用椭圆表示属性(一般没有)、长方形表示实体、菱形表示联系,联系两端要标注联系类型。
- 联系类型:一对一1:1、一对多1:N、多对多M:N
- 属性分类:简单属性和复合属性、单值属性和多值属性、NULL属性、派生属性。
5.关系模型
- 关系模型也即数据库中常用的表,包括实体的属性,标识出实体的主键和外键。
6.模型转换
- E–R图转换为关系模型,每个实体都对应一个关系模式;联系分为三种:
- 1:1联系中,联系可以放到任意的两端实体中,作为一个属性(要保证1:1的两端关联)
- 1:N的联系中,联系可以单独作为一个关系模式,也可以在N端中加入1端实体的主键
- M:N的联系中,联系必须作为一个单独的关系模式,其主键是M和N端的联合主键
7.关系代数
①集合运算符:并、交、差、笛卡儿积。②专门的关系运算符:选择、投影、连接、除。
其中,并、差、笛卡儿积、选择、投影这五种运算是基本的运算。(对于属性列,笛卡儿积不去重,自然连接去重)
- 并:结果是两张表中所有记录数合并,相同记录只显示一次。
- 交:结果是两张表中相同的记录
- 差:S1–S2,结果是S1表中有而S2表中没有的那些记录。
- 笛卡尔积:S1×S2,产生的结果包括S1和S2的所有属性列,并且S1中每条记录依次和S2中所有记录组合成一条记录,最终属性列为S1+S2属性列,记录数为S1×S2记录数。
- 投影:实际是按条件选择某关系模式中的某列,列也可以用数字表示。(π)
- 选择:实际是按条件选择某关系模式中的某条记录。(σ)
- 自然连接的结果显示全部的属性列,但是相同属性列只显示一次,显示两个关系模式中属性相同且值相同的记录。
8.函数依赖
- 给定一个X,能唯一确定一个Y,就称X确定Y,或者说Y依赖于X,例如Y=X*X函数。
- 函数依赖又可扩展以下两种规则:
- 部分函数依赖:A可确定C,(A,B)也可确定C,(A,B)中的一部分(即A)可以确定C,称为部分函数依赖。
- 传递函数依赖:当A和B不等价时,A可确定B,B可确定C,则A可确定C,是传递函数依赖;若A和B等价,则不存在传递,直接就可确定C。
9.键与约束
-
超键:能唯一标识此表的属性的组合。
-
候选键:超键中去掉冗余的属性,剩余的属性就是候选键。
-
主键:任选一个候选键,即可作为主键。
-
外键:其他表中的主键。
-
主属性:候选键内的属性为主属性,其他属性为非主属性。
-
实体完整性约束:即主键约束,主键值不能为空,也不能重复。
-
参照完整性约束:即外键约束,外键必须是其他表中已经存在的主键的值,或者为空。
-
用户自定义完整性约束:自定义表达式约束,如设定年龄属性的值必须是0到150之间。
10.范式
- 第一范式1NF:所有属性都不可以再分割为两个或多个分量。
- 第二范式2NF:**若关系模式R∈1NF,且每一个非主属性完全依赖于码,则关系模式R∈2NF。(换句话说,当1NF消除了非主属性对码的部分函数依赖,则称为2NF)**比较典型的例子就是候选键是单属性,单属性是不可能存在部分函数依赖的。
- 第三范式3NF:若关系模式R(U,F)中不存在这样的码X,属性组Y及非主属性Z(Z不包含于Y)使得X→Y,Y→Z成立,则关系模式R∈3NF。(换句话说,当2NF消除了非主属性对码的传递函数依赖,则称为3NF)(此时,也不会存在部分依赖)。
- BC范式BCNF:关系模式R(U,F)∈1NF,若X→Y且Y不包含于X时,X必含有码,则R∈BCNF。(换句话说,关系模式R中,若每一个决定因素都包含码,则称为BCNF)
11.模式分解
-
范式之间的转换一般都是通过拆分属性,即模式分解,将具有部分函数依赖和传递依赖的属性分离出来,来达到一步步优化,一般分为两种:
- 保持函数依赖分解
- 对于关系模式R,有依赖集F,若对R进行分解,分解出来的多个关系模式,保持原来的依赖集不变,则为保持函数依赖的分解。另外,注意要消除冗余依赖(如传递依赖)。
-
无损分解:分解后的关系模式能够还原出原关系模式,就是无损分解,不能还原就是有损。
-
当分解为两个关系模式,除了表格法以外,还可以通过以下定理判断是否为无损分解
-
定理:如果R的分解为p={R1,R2},F为R所满足的函数依赖集合,分解p具有无损连接性的充分必要条件是R1∩R2–>(R1–R2)或者R1∩R2–>(R2–R1)
12.事务管理
- 事务:由一系列操作组成,这些操作,要么全做,要么全不做,拥有四种特性:
- (操作)原子性:要么全做,要么全不做。
- (数据)一致性:事务发生后数据是一致的。
- (执行)隔离性:任一事务的更新操作直到其成功提交的整个过程对其他事务都是不可见的,不同事务之间是隔离的,互不干涉。
- (改变)持续性:事务操作的结果是持续性的。
13.并发控制
- 事务是并发控制的前提条件,并发控制就是控制不同的事务并发执行,提高系统效率,但是并发控制中存在下面三个问题:
- 丢失更新
- 不可重复读
- 读脏数据
14.三级封锁协议
-
①排它锁:也称X锁或写锁。若事务T对数据对象A加上X锁,则只允许T读取和修改A,其他事务都不能再对A加任何类型的锁,直到T释放A上的锁。
-
②共享锁:也称S锁或读锁。若事务T对数据对象A加上S锁,则只允许T读取A,但不能修改A,其他事务只能再对A加S锁,直到T释放A上的S锁。这就保证了其他事务可以读取A,但在T释放A上的S锁之前不能对A进行任何修改。
-
一级封锁协议:事务在修改数据R之前必须先对其加X锁,直到事务结束才释放。可解决丢失更新问题。
-
二级封锁协议:一级封锁协议的基础上加上事务T在 读数据R之前必须先对其加S锁,读完后即可释放S锁。可解决丢失更新、读脏数据问题。
-
三级封锁协议:一级封锁协议加上事务T在读取数据R之前先对其加S锁,直到事务结束才释放。可解决丢失更新、读脏数据、数据重复读问题。
15.数据库故障
故障类型 | 故障原因 |
---|---|
事务内部故障 | 本身逻辑(可预期)、运算溢出(不可预期) |
系统故障 | 系统停止运行任何事件,如操作系统故障、停电 |
介质故障 | 物理介质损坏,几率小破坏性最大 |
计算机病毒 | 人为的故障和破坏,在计算机程序中插入的破坏 |
16.数据库备份
-
静态转储:即冷备份,指在转储期间不允许对数据库进行任何存取、修改操作;
- 优点:非常快速的备份方法、容易归档(直接物理复制操作)
- 缺点:只能提供某一时间点上的恢复,不能做其他工作,不能按表或按用户恢复。
-
动态存储:即热备份,在转储期间允许对数据库进行存取、修改操作,因此,转储和用户事务可并发执行;
- 优点:可在表空间或数据库文件级备份,数据库仍可使用,可达到秒级恢复;
- 缺点:不能出错,否则后果严重,若热备份不成功,所得结果几乎全部无效。
-
完全备份:备份所有数据。
-
差量备份:仅备份上一次完全备份之后变化的数据。
-
增量备份:备份上一次备份之后变化的数据。
-
日志文件:在事务处理过程中,DBMS把事务开始、事务结束以及对数据库的插入、删除和修改的每一次操作写入日志文件。
17.分布式数据库
- 局部数据库位于不同的物理位置,使用一个全局DBMS将所有局部数据库联网管理,这就是分布式数据库。其体系结构为:
- 分片模式
- 水平分片:将表中水平的记录分别存放在不同的地方。
- 垂直分片:将表中的垂直的列值分别存放在不同的地方。
- 分布透明性
- 分片透明性:用户或应用程序不需要知道逻辑上访问的表具体是如何分块存储的。
- 位置透明性:应用程序不关心数据存储物理位置的改变。
- 逻辑透明性:用户或应用程序无需知道局部使用的是哪种数据模型。
- 复制透明性:用户或应用程序不关心复制的数据从何而来。
- 分片模式
18.数据仓库
- 数据仓库是一种特殊的数据库,也是按数据库形式存储数据的,数据仓库的目的不是为了应用,是面向主题的,用来做数据分析,集成不同表,而且是相对稳定的,一般不会做修改,同时会在特定的时间点,做大量的插入,反映历史的变化。
19.数据挖掘
- 形成数据仓库后,有两个作用,一个是用来做数据的查询、分析、生成报表。另一个是使用数据挖掘工具对这些历史数据进行挖掘,查找数据间的关系,发现剩余价值。
- 数据挖掘的分析方法:
- 关联分析
- 序列分析
- 分类分析
- 聚类分析
20.商业智能BI
- BI系统主要包括数据预处理、建立数据仓库、数据分析和数据展现四个主要阶段。
21.反规范化技术
- 规范化操作可以防止插入异常、更新、删除异常和数据冗余,一般是通过模式分解,将表拆分,来达到这个目的。
- 但是表拆分后,解决了上述异常,却不利于查询,每次查询时,可能都要关联很多表,严重降低了查询效率,因此,有时候需要使用反规范化技术来提高查询效率。
- 技术手段包括:增加派生性冗余列,增加冗余列,重新组表,分割表。
- 主要就是增加冗余,提高查询效率,为规范化操作的逆操作。
22.大数据
-
特点:大量化、多样化、价值密度低、快速化。
-
大数据和传统数据的比较如下:
比较维度 传统数据 大数据 数据量 GB或TB级 PB级或以上 数据分析需求 现有数据的分析与检测 深度分析、关联分析、回归分析 硬件平台 高端服务器 集群平台 -
要处理大数据,一般使用集成平台,称为大数据处理系统,其特征为:
- 高度可扩展性、高性能、高度容错、支持异构环境、较短的分析延迟、易用且开放的接口、较低成本、向下兼容性。
23.SQL语言
-
SQL语言中的语法关键字,不区分大小写:
- 创建表create table
- 指定主键primary key()
- 指定外键foreign key()
- 修改表alter table
- 删除表drop table
- 索引index,视图view
- UNIQUE:唯一
-
数据库查询select…from…where
-
分组查询group by,分组时要注意select后的列名要适应分组,having为分组查询附加条件。
-
更名运算as:select sno as”学号” from t1
-
字符串匹配like,%匹配多个字符串,匹配任意一个字符串:select * from t1 where sname like ‘a’
-
数据库插入insert into…values()
-
数据库删除delete from…where:delete t1 where sno=4
-
数据库修改update…set…where
-
排序order by,默认为升序,降序要加关键字DSEC:select * from t1 order by sno desc
-
DISTINCT:过滤重复的选项,只保留一条记录。
-
UNION:出现在两个SQL语句之间,将两个SQL语句的查询结果取或运算,即值存在于第一句或第二句都会被选出。
-
INTERSECT:对两个SQL语句的查询结果做与运算,即值同时存在于两个语句才被选出
-
MIN、AVG(平均值)、MAX:分组查询时的聚合函数