《高性能的数据库》第一讲：范式设计 _高性能系统不一定遵守数据库设计的三范式吧-优快云博客

本文介绍了数据库设计中的范式概念，包括第一、第二和第三范式的定义与实践案例，并探讨了如何在网络环境中优化数据库设计。

第一讲：范式设计

首先，俺说，数据库重在设计，然后才是开发。按照第三范式开发，会让你提升到一个新的境界！

名词解释：第三范式

第一范式：一个不包含重复列的表归于第一范式。

第二范式：如果一个表归于第一范式且只包含依赖于主键的列，则归于第二范式。

第三范式：如果一个表归于第二范式且只包含那些非传递性地依赖于主键的列，则归于第三范式。

简单解释：

第一范式：不设计重复字段的表

比如：
Create Table tb1 (
  fd1 varchar(20),  --用来存放电话
  fd2 varchar(20),  --用来存放电话
  fd3 int           --其他
)

则fd1,fd2违反第一范式

第二范式:

第二范式：不设计没有主键，或没有唯一索引的表

比如：如果一个表存在相同的数据，那必然是违反第二范式无疑。

第三范式：能细分则细分每个字段。

比如：一个表，原来设计为：

Create TAble Clothes(
  ClothesID int primary key,--ID
  Color     varchar(10),     --颜色
  Description varchar(20)    --描述
)

那么Color违反了第三范式

于是,第三范式应该这样设计

Create TAble Clothes(
  ClothesID int primary key,--ID
  ColorID     Int,     --颜色ID
  Description varchar(20)    --描述
)

Create Table Color(
ColorID int primary key,
Color varchar(20)
)

Color作为主表,Clothes作为子表,两者用ColorID互联.

三范式设计的好处：减少数据冗余，提高系统可维护性，提高系统可扩展性。
三范式设计的缺点：会降低数据库的性能。（嘻嘻，不过非常少，大家放心）

基于网络的考虑

　　数据库的规范化提高了系统性能，但不是单纯为了规范化而规范化，高范式等级的数据库在网络中不一定有高性能。因为使数据库规范化的方法是把表拆分成相关列最少的表，这样查询时就需要用复杂的联结，占用较多的CPU资源和I/O操作，才能查到客户端所需的数据。这样的开销是我们所不希望的，因为这会导致复杂度的增加和性能的下降。所以在网络环境下有必要对规范化进行必要的平衡，使系统有最优的性能。提高数据库的网络性能，在系统中我们采用了下面的方法。

适量增加冗余

　　非网络的集中式数据库中要尽可能减少数据的冗余度，以节省存贮空间，使数据易于保持一致性。冗余数据虽易造成不一致性，且系统为了维护冗余数据要付出一定的代价，但在网络数据库中适当增加数据的冗余是有好处的。增加冗余分两个层次：一是数据库层，二是表层。

　　数据库层数据冗余：系统建模无论采用何种体系结构，冗余数据可以数据副本的方式出现，副本的存在使许多应用可以"本地性"，大大减少了网络通信，提高了系统的性能；再有当某一结点出现故障时，由于拷贝副本的存在，系统仍可对此副本操作，而不至于因一处故障而使系统无法使用。

　　表层数据冗余：数据库的规范化其实质是概念的单一化，所以规范后的数据库中的表一般都较小，使表中相关列最少，这虽然增强了数据库的可维护性，但在系统要完成一些检索时，可能要用复杂的联结才能实现。这种操作有时需要网络I/O上的较大开销，这将导致性能的下降。对这一问题的解决方案，一是建立临时表或定义视图以减少频繁出现的多表联结，二是在数据库的设计时仅采用恰当的范式等级。

增加标识列

　　当一个表需要多个列的组合才能组成主键时，可以在表中合理的增加一列作为主键，唯一标识此表，一般这一列用的值是一个编号或是时间戳(timestamp)等。在这种情况下增加列虽然多占了存贮空间，但是在索引中以此列代替大的组合键，从而获得了性能的提高。

大表横向分割

　　在执行查询时如果只涉及一大表的一个子集，可以把这个大表分成多个表，也即对表进行了分割，可提高在网络环境下的查询速度。

结束语

　　在基于网络的数据库设计过程中，既要考虑其范式要求，也要考虑其网络要求。当在这两者之间有冲突时,要在两者之间作一个平衡，根据实际应用进行具体的系统分析，权衡各方面的因素后，选择最优设计方案