什么是表结构数据
表结构数据中的“表”来源于关系型数据库中的“table”,关系型数据库中的数据都是以表结构进行存储的,它是数据分析工具中最基本的存储结构。在关系型数据库中一个数据库可以有多个数据表,每个数据表都是由固定列和任意行构成的二维表结构的数据集。表中的列称为字段,表中的行称为记录,并以字段为基本的存储单位和计算单位。

为什么要使用表结构数据
除了Excel和WPS之外的其他分析工具,都是使用二维表结构的存储格式。

表格与表的区别
- 表格数据中的最小单位是单元格,表数据中最小单位是字段。
- 表格数据中可以没有列名,表数据中每个字段必须有字段名,且同一个表中的字段名不能重复。
- 表格数据中每一列的数据类型可以不一致,表数据中每个字段的数据类型必须一致。
- 表格数据中每一列的行数可以不一致,表数据中每个字段的记录数必须一致,字段中可以有缺失值,但总记录数是一致的。
表结构数据的优势
- 几乎所有数据分析工具都支持表结构的存储格式,可以非常轻松地关联并整合多种不同数据源的数据。
- 以字段为基本计算单位,运算效率要高于以单元格为计算单位的表格数据,可以对海量数据进行批量计算。
- 可以在不同表间建立关联关系,将不同维度数据表整合为一个完整的多维数据集,创建统一的数据分析平台,解决信息孤岛问题。
- 通过搭建多维数据平台,在不同维度下对度量进行汇总观测。
横向连接
表是相关字段的集合,而不相关的字段是存放在不同数据表中的,如果要汇总不同表中的数据,就需要把多个数据表连接起来,生成一个完整的数据源来提取我们需要的数据进行汇总分析。横向连接就是用表中共有的关键字段,将多个表连接起来补充字段信息。
多表连接的结果通过三个属性决定:
- 方向性:在外连接中写在前边的表为左表、写在后边的表为右表。
- 主附关系:主表要出所有的数据范围,附表与主表无匹配项时标记为null,内连接时无主附表之分。
- 对应关系:关键字段中有重复值的表为多表,没有重复值的表为一表。
对应关系:
- 一对一

- 一对多或多对一

- 多对多

连接方式:
两种基本的连接方式:内连接和外连接(左连接、右连接、全连接)。


- 内连接:按照连接条件合并两个表,返回满足条件的行。

- 左连接:结果中除了包括满足连接条件的行外,还包括左表的所有行。

- 右连接:结果中除了包括满足连接条件的行外,还包括右表的所有行。

- 全连接:按照连接条件合并两个表,返回两个表中的所有行。

维度与度量
表结构数据中的字段作为不同分析角色使用时也被称为变量,分为离散型变量和连续型变量。离散和连续是数学上的概念,离散指“各自分离且不同”,连续指“构成一个不间断的整体”。
不同的分析角色分为维度和度量。
维度:一般为离散型变量,用来分组的分类字段。
名义型变量:字段中的值与值之间没有顺序关系,只单纯用来定义名称的变量,如:姓名、性别、血型等。
有序型变量:字段中的值与值之间有顺序关系但不连续的变量,如:学历、职称、 舱位等。
度量:一般为连续型变量,用来汇总观测的指标值。
连续型变量:字段中的值与值之间不仅有顺序关系而且值与值之间取值连贯的变量,如:年龄、价格、数量等。
常见的聚合方法:总和、平均值、计数、最大值、最小值等。
聚合度量
表中的维度可以进行分组汇总,表中的度量可以进行聚合运算。
- 维度的汇总是将原始数据中相同的多行值汇总为一行值的过程。
- 度量的聚合是将原始数据中相同维度值对应的多个度量值按照运算规则计算为一个值的过程。

横向连接汇总的注意事项
一对多的表连接时,一表的度量值会在多表重复项下翻倍。
多对多的表连接时,多表的度量值都会翻倍。
因此,在一对多的表连接时,一表汇总维度,多表聚合度量,而多对多的表连接一般不用作汇总分析。

关键字段有非匹配项时,出维度的表作为主表进行连接时可以保证维度的完整性,出度量的表作为主表进行连接时可以保证度量值的准确性。因此,我们可以根据业务需求选择合适的连接方式。

纵向合并
表结构数据中的纵向合并就是在一个表中追加另一个表中的记录。
- 两张表必须拥有相同数量的字段。
- 两张表字段的顺序必须相同。
- 两张表对应字段的数据类型必须一致。
