数据库范式
范式,是用来规定数据冗余程度的,一般越高的范式数据库冗余越小。
目前关系数据库有六种范式:
第一范式(1NF)
第二范式(2NF)
第三范式(3NF)
巴斯-科德范式(BCNF)、第四范式(4NF)和第五范式(5NF,又称完美范式)。
一般只用前三种范式,后三种基本没使用。一般说来,数据库只需满足第三范式(3NF)就行了。
下面一一来讲解:
1. 第一范式(1NF)
遵循两个原则:a. 每个表要有主键;b. 每一列都是不可分割的原子数据项。
2. 第二范式(2NF)
简而言之,第二范式就是在第一范式的基础上属性完全依赖于主键。
3. 第三范式(3NF)
在1NF基础上,任何非主属性不依赖于其它非主属性。
范式应用实例
下面以一个学校的学生系统为例分析说明,这几个范式的应用。
第一范式(1NF)
数据库表中的字段都是单一属性的,不可再分。这个单一属性由基本类型构成,包括整型、实数、字符型、逻辑型、日期型等。
在当前的任何关系数据库管理系统(DBMS)中,傻瓜也不可能做出不符合第一范式的数据库,因为这些DBMS不允许你把数据库表的一列再分成二列或多列。
因此,你想在现有的DBMS中设计出不符合第一范式的数据库都是不可能的。首先我们确定一下要设计的内容包括那些。
学号、学生姓名、年龄、性别、课程、课程学分、系别、学科成绩,系办地址、系办电话等信息。为了简单我们暂时只考虑这些字段信息。
我们对于这些信息,说关心的问题有如下几个方面:
学生有那些基本信息?
学生选了那些课,成绩是什么?
每个课的学分是多少?
学生属于那个系,系的基本信息是什么?
第二范式(2NF)
首先我们考虑,把所有这些信息放到一个表中(学号,学生姓名、年龄、性别、课程、课程学分、系别、学科成绩,系办地址、系办电话)。
很明显,就存在如下的依赖关系:
(姓名, 年龄, 成绩, 学分) → (学号, 课程名称),意思就是(姓名, 年龄, 成绩, 学分) 依赖于(学号, 课程名称)。
或者,(学号, 课程名称) → (姓名, 年龄, 成绩, 学分),即(学号, 课程名称)决定(姓名, 年龄, 成绩, 学分) 。
问题分析
因此不满足第二范式的要求,会产生如下问题:
数据冗余:
同一门课程由n个学生选修,"学分"就重复n-1次;同一个学生选修了m门课程,姓名和年龄就重复了m-1次。
更新异常:
1)若调整了某门课程的学分,数据表中所有行的"学分"值都要更新,否则会出现同一门课程学分不同的情况。
2)假设要开设一门新的课程,暂时还没有人选修。这样,由于还没有"学号"关键字,课程名称和学分也无法记录入数据库。
删除异常 :
假设一批学生已经完成课程的选修,这些选修记录就应该从数据库表中删除。但是,与此同时,课程名称和学分信息也被删除了。
很显然,这也会导致插入异常。
解决方案
把选课关系表SelectCourse改为如下三个表:
学生:Student(学号,姓名,年龄,性别,系别,系办地址、系办电话);
课程:Course(课程名称,学分);
选课关系:SelectCourse(学号,课程名称,成绩)。
第三范式(3NF)
接着看上面的学生表Student(学号,姓名,年龄,性别,系别,系办地址、系办电话),关键字为单一关键字"学号"。
必然存在如下决定关系:
(学号)→ (姓名,年龄,性别,系别,系办地址、系办电话)
但是还存在下面的决定关系:
(系别)→(系办地点,系办电话)
即存在非关键字段(系办地点,系办电话)对非关键字段(系别)的依赖。
它也会存在数据冗余、更新异常、插入异常和删除异常的情况。
根据第三范式把学生关系表分为如下两个表就可以满足第三范式了:
学生:(学号,姓名,年龄,性别,系别);
系别:(系别,系办地址、系办电话)。
总体来说,设计为如下四个表:
学生:Student(学号,姓名,年龄,性别,系别),关键字(或者主键)为学号;
系别:Dept(系别,系办地址,系办电话),关键字为系别;
课程:Course(课程名称,学分),关键字为课程名称;
选课关系:SelectCourse(学号,课程名称,成绩),关键字为(学号,课程名称)。
上面的数据库表就是符合1,2,3范式的,消除了数据冗余、更新异常、插入异常和删除异常。
更多参考http://ce.sysu.edu.cn/cdbm/news/coures/200908/news_20090807210925_242.html
范式,是用来规定数据冗余程度的,一般越高的范式数据库冗余越小。
目前关系数据库有六种范式:
第一范式(1NF)
第二范式(2NF)
第三范式(3NF)
巴斯-科德范式(BCNF)、第四范式(4NF)和第五范式(5NF,又称完美范式)。
一般只用前三种范式,后三种基本没使用。一般说来,数据库只需满足第三范式(3NF)就行了。
下面一一来讲解:
1. 第一范式(1NF)
遵循两个原则:a. 每个表要有主键;b. 每一列都是不可分割的原子数据项。
2. 第二范式(2NF)
简而言之,第二范式就是在第一范式的基础上属性完全依赖于主键。
3. 第三范式(3NF)
在1NF基础上,任何非主属性不依赖于其它非主属性。
范式应用实例
下面以一个学校的学生系统为例分析说明,这几个范式的应用。
第一范式(1NF)
数据库表中的字段都是单一属性的,不可再分。这个单一属性由基本类型构成,包括整型、实数、字符型、逻辑型、日期型等。
在当前的任何关系数据库管理系统(DBMS)中,傻瓜也不可能做出不符合第一范式的数据库,因为这些DBMS不允许你把数据库表的一列再分成二列或多列。
因此,你想在现有的DBMS中设计出不符合第一范式的数据库都是不可能的。首先我们确定一下要设计的内容包括那些。
学号、学生姓名、年龄、性别、课程、课程学分、系别、学科成绩,系办地址、系办电话等信息。为了简单我们暂时只考虑这些字段信息。
我们对于这些信息,说关心的问题有如下几个方面:
学生有那些基本信息?
学生选了那些课,成绩是什么?
每个课的学分是多少?
学生属于那个系,系的基本信息是什么?
第二范式(2NF)
首先我们考虑,把所有这些信息放到一个表中(学号,学生姓名、年龄、性别、课程、课程学分、系别、学科成绩,系办地址、系办电话)。
很明显,就存在如下的依赖关系:
(姓名, 年龄, 成绩, 学分) → (学号, 课程名称),意思就是(姓名, 年龄, 成绩, 学分) 依赖于(学号, 课程名称)。
或者,(学号, 课程名称) → (姓名, 年龄, 成绩, 学分),即(学号, 课程名称)决定(姓名, 年龄, 成绩, 学分) 。
问题分析
因此不满足第二范式的要求,会产生如下问题:
数据冗余:
同一门课程由n个学生选修,"学分"就重复n-1次;同一个学生选修了m门课程,姓名和年龄就重复了m-1次。
更新异常:
1)若调整了某门课程的学分,数据表中所有行的"学分"值都要更新,否则会出现同一门课程学分不同的情况。
2)假设要开设一门新的课程,暂时还没有人选修。这样,由于还没有"学号"关键字,课程名称和学分也无法记录入数据库。
删除异常 :
假设一批学生已经完成课程的选修,这些选修记录就应该从数据库表中删除。但是,与此同时,课程名称和学分信息也被删除了。
很显然,这也会导致插入异常。
解决方案
把选课关系表SelectCourse改为如下三个表:
学生:Student(学号,姓名,年龄,性别,系别,系办地址、系办电话);
课程:Course(课程名称,学分);
选课关系:SelectCourse(学号,课程名称,成绩)。
第三范式(3NF)
接着看上面的学生表Student(学号,姓名,年龄,性别,系别,系办地址、系办电话),关键字为单一关键字"学号"。
必然存在如下决定关系:
(学号)→ (姓名,年龄,性别,系别,系办地址、系办电话)
但是还存在下面的决定关系:
(系别)→(系办地点,系办电话)
即存在非关键字段(系办地点,系办电话)对非关键字段(系别)的依赖。
它也会存在数据冗余、更新异常、插入异常和删除异常的情况。
根据第三范式把学生关系表分为如下两个表就可以满足第三范式了:
学生:(学号,姓名,年龄,性别,系别);
系别:(系别,系办地址、系办电话)。
总体来说,设计为如下四个表:
学生:Student(学号,姓名,年龄,性别,系别),关键字(或者主键)为学号;
系别:Dept(系别,系办地址,系办电话),关键字为系别;
课程:Course(课程名称,学分),关键字为课程名称;
选课关系:SelectCourse(学号,课程名称,成绩),关键字为(学号,课程名称)。
上面的数据库表就是符合1,2,3范式的,消除了数据冗余、更新异常、插入异常和删除异常。
更多参考http://ce.sysu.edu.cn/cdbm/news/coures/200908/news_20090807210925_242.html