《分析服务从入门到精通读书笔记》第一章、数据分析基础（1）

最新推荐文章于 2024-05-26 20:57:34 发布

转载最新推荐文章于 2024-05-26 20:57:34 发布 · 103 阅读

本文探讨了商业智能的基本概念，包括属性、层次结构和维度。通过实例展示了如何将数字数据转换为有意义的信息，包括度量值、元数据和属性的使用。文章进一步解释了如何通过增加标签来提高数据的可读性和分析能力，以及如何利用层次结构聚合数据以提供更深入的洞察。最后，介绍了如何根据业务需求重构报表，以实现多维度分析。

部署运行你感兴趣的模型镜像

目的

学习一些商业智能的基本概念，如属性、层次结构和维度

数据分析中的属性

假设如果你是AWC公司的总经理，希望了解公司的业绩，于是从业务人员那里得到一份报表

表1.1 AWC公司业绩

看到这个表格你根本不能得到任何信息，也就是说这个表是没有任何意义的，没有上下文的数字可能是数据，但不是信息，在商业智能中，用来监控公司运行的可概况的数值被称作度量值（measure）。在寻找数字信息的过程中，首先要做的就是确定所需要的度量值，度量值可以是“销售额（Sales Dollars）”、“发货量（Shipment Units）”、等，我们来看一下AWC公司的销售报告，如图1.2所示

表1.2 AWC公司销售报表

销售量

通过增加标签，数字从数据变成了信息。我们从中就可以知道，42代表销售量，这个标签就是元数据（metadata），即关于数据的的数据。商业智能应用程序将数据转换成信息的方式之一就是通过增加元数据。只看单个数据，我们并不能得到许多信息，因此我们希望将数据打散使其包含更多的信息。例如，要知道在一段时间内的业绩如何，我们就需要如表1.3所示的分析报表

表1.3 AWC公司月度分析报表

2011年1月	2011年2月	2011年3月	2012年4月
4	14	27	25

由于我们添加了更多的元数据，就能获得更多的信息，每个月销售量的一个属性是该销售发生的月份。公司已经运作了4个月，因此在表的最上方一行的月份的属性标签。值得注意的是，月份标签是按时间顺序排列的，而不是按字母顺序或随机排列的。报表中属性标签出现的顺序也是元数据，这对于帮助了解在一段时间内的业绩至关重要。

你可能对前面的月度表不满意，因为公司不止销售一种产品，每种产品在各个时间段表现如何？此时我们就需要一份新的报表。

表1.4 AWC 公司按产品和月份列出的销售报表

产品	2011年1月	2011年2月	2011年3月	2011年4月
mountain-500 black,40	1	3	1	2
mountain-500 black,44		2		1
mountain-500 black,48		1	2	1
mountain-500 silver,40		1	2	1
mountain-500 silver,44		1	1	1
mountain-500 silver,48	2
Road-750 Black,44			10	7
Road-750 Black,48			5	9
Hitch Rack	1	6	6	3

由于有更多的元数据，我们现在获得了更多的信息。每个销售量的值都有两个属性：特定的月份和特定的产品。公司总生产三种产品模型，由于尺寸和颜色的不同，共有9中不同的产品，因此，报表左列共有9个属性标签，分别对应每一种产品。

但这是在数据量少的情况下，你可以直观的分析，当数据量的增多，此种情况就不适应了，我们需要寻找共有的属性，可以创建产品分组。可以按照产品名称模型名、颜色和尺寸属性进行划分。

表1.5 产品属性

产品	模型	颜色	尺寸
mountain-500 black,40	mountain-500	黑色	40
mountain-500 black,44	mountain-500	黑色	44
mountain-500 black,48	mountain-500	黑色	48
mountain-500 silver,40	mountain-500	银色	40
mountain-500 silver,44	mountain-500	银色	44
mountain-500 silver,48	mountain-500	银色	48
Road-750 Black,44	Road-750	黑色	44
Road-750 Black,48	Road-750	黑色	48
Hitch Rack	Hitch Rack

我们得到了说那个的产品属性标签列表，可以据此在报表中创建分组。由于“属性标签列表”这个表达过于繁琐，商业智能从业者就将每一个属性标签称为属性。由于每一属性标签列的标签都互相关联并属于一个相同的属性，这些标签被称为成员。例如，“模型”属性有三个成员：Hitch Rack、Mountain-500和Road-750;而“颜色”属性具有两个成员：Black和Silver。

“产品”属性被称为关键属性。关键属性唯一地确定了成员的所有其他属性。通过查看产品属性，我们可以知道关于该产品的所有其他属性。例如，对于“Mounttain-500 Silver,42”这个产品，我们可以知道，这是一件银色的，尺寸为42的Mountain-500型的自行车。另一种识别关键属性的方法，是在创建如表1.5所示的相关属性列时，关键属性的成员是唯一的，“模型”不是一个关键属性，因为在查看模块属性中Mountain-500这个成员时，无法获知其中颜色是黑色还是银色，也无法获知尺寸属性。其实，“模型”属性成员在表1.5中是重复的。

现在我们再进行重构这张表。

表1.6 AWC公司按模型、产品和月份列出的销售报表

模型和产品	2011年1月	2011年2月	2011年3月	201年4月
Mountain-500	3	8	6	6
Mountain-500 Black,40	1	3	1	2
Mountain-500 Black,44		2		1
Mountain-500 Black,48		1	2	1
Mountain-500 Silver,40		1	2	1
Mountain-500 Silver,44		1	1	1
Mountain-500 Silver,48	2
Road-750			15	16
Road-750 Black,44			10	7
Road-750 Black,48			5	9
Hitch Rack	1	6	6	3
Hitch Rack	1	6	6	3

这份表已经出现了汇总信息。每个模型的汇总信息就是该模型的相关产品销售额的综合或叫聚合（aggregation）。“模型”属性和“产品”属性以层次结构（hierarchy）进行组织，由“模型”属性的成员作为层次结构的做高层，“产品”属性的成员作为最底层。通过将产品和模型组织成层次结构，并将产品值聚合成某一种模型值，提供了额外的元数据，从而提高了数据传递信息的能力。

表1.6所示的报表已经接近AWC公司生产更多产品所采用的报表。有了层次结构，就不用将全部的层级（level）展示出来，例如，我们只想查看“模型”层级，就可以让分析员将“产品”级排除在外。

我们再继续重构一张表，通过表1.7所示的汇总报表可以对公司业绩有一个更为全面的了解。

表1.7 AWC公司按模型和月份列出销售报表