《分析服务从入门到精通读书笔记》第一章、数据分析基础(1)

本文探讨了商业智能的基本概念,包括属性、层次结构和维度。通过实例展示了如何将数字数据转换为有意义的信息,包括度量值、元数据和属性的使用。文章进一步解释了如何通过增加标签来提高数据的可读性和分析能力,以及如何利用层次结构聚合数据以提供更深入的洞察。最后,介绍了如何根据业务需求重构报表,以实现多维度分析。
部署运行你感兴趣的模型镜像

目的

    学习一些商业智能的基本概念,如属性、层次结构和维度

数据分析中的属性

   假设如果你是AWC公司的总经理,希望了解公司的业绩,于是从业务人员那里得到一份报表

 表1.1 AWC公司业绩

    42    

 

看到这个表格你根本不能得到任何信息,也就是说这个表是没有任何意义的,没有上下文的数字可能是数据,但不是信息,在商业智能中,用来监控公司运行的可概况的数值被称作度量值(measure)。在寻找数字信息的过程中,首先要做的就是确定所需要的度量值,度量值可以是“销售额(Sales  Dollars)”、“发货量(Shipment Units)”、等,我们来看一下AWC公司的销售报告,如图1.2所示

表1.2 AWC公司销售报表

   销售量  
     42    

通过增加标签,数字从数据变成了信息。我们从中就可以知道,42代表销售量,这个标签就是元数据(metadata),即关于数据的的数据。商业智能应用程序将数据转换成信息的方式之一就是通过增加元数据。只看单个数据,我们并不能得到许多信息,因此我们希望将数据打散使其包含更多的信息。例如,要知道在一段时间内的业绩如何,我们就需要如表1.3所示的分析报表

表1.3 AWC公司月度分析报表

2011年1月2011年2月2011年3月2012年4月
4142725

 

由于我们添加了更多的元数据,就能获得更多的信息,每个月销售量的一个属性是该销售发生的月份。公司已经运作了4个月,因此在表的最上方一行的月份的属性标签。值得注意的是,月份标签是按时间顺序排列的,而不是按字母顺序或随机排列的。报表中属性标签出现的顺序也是元数据,这对于帮助了解在一段时间内的业绩至关重要。

你可能对前面的月度表不满意,因为公司不止销售一种产品,每种产品在各个时间段表现如何?此时我们就需要一份新的报表。

表1.4 AWC 公司按产品和月份列出的销售报表

产品2011年1月2011年2月2011年3月2011年4月
mountain-500 black,401312
mountain-500 black,44 2 1
mountain-500 black,48 121
mountain-500 silver,40 121
mountain-500 silver,44 111
mountain-500 silver,482   
Road-750 Black,44  107
Road-750 Black,48  59
Hitch Rack1663

 

由于有更多的元数据,我们现在获得了更多的信息。每个销售量的值都有两个属性:特定的月份和特定的产品。公司总生产三种产品模型,由于尺寸和颜色的不同,共有9中不同的产品,因此,报表左列共有9个属性标签,分别对应每一种产品。

但这是在数据量少的情况下,你可以直观的分析,当数据量的增多,此种情况就不适应了,我们需要寻找共有的属性,可以创建产品分组。可以按照产品名称模型名、颜色和尺寸属性进行划分。

表1.5 产品属性

产品      模型          颜色         尺寸      
mountain-500 black,40mountain-500黑色40
mountain-500 black,44mountain-500黑色44
mountain-500 black,48mountain-500黑色48
mountain-500 silver,40mountain-500银色40
mountain-500 silver,44mountain-500银色44
mountain-500 silver,48mountain-500银色48
Road-750 Black,44Road-750黑色44
Road-750 Black,48Road-750 黑色48
Hitch RackHitch Rack  

 

 我们得到了说那个的产品属性标签列表,可以据此在报表中创建分组。由于“属性标签列表”这个表达过于繁琐,商业智能从业者就将每一个属性标签称为属性。由于每一属性标签列的标签都互相关联并属于一个相同的属性,这些标签被称为成员。例如,“模型”属性有三个成员:Hitch Rack、Mountain-500和Road-750;而“颜色”属性具有两个成员:Black和Silver。

“产品”属性被称为关键属性。关键属性唯一地确定了成员的所有其他属性。通过查看产品属性,我们可以知道关于该产品的所有其他属性。例如,对于“Mounttain-500 Silver,42”这个产品,我们可以知道,这是一件银色的,尺寸为42的Mountain-500型的自行车。另一种识别关键属性的方法,是在创建如表1.5所示的相关属性列时,关键属性的成员是唯一的,“模型”不是一个关键属性,因为在查看模块属性中Mountain-500这个成员时,无法获知其中颜色是黑色还是银色,也无法获知尺寸属性。其实,“模型”属性成员在表1.5中是重复的。

现在我们再进行重构这张表。

表1.6 AWC公司按模型、产品和月份列出的销售报表

     模型和产品          2011年1月        2011年2月         2011年3月         201年4月    
 Mountain-500 3 8 6 6
     Mountain-500 Black,40 1 3 1 2
     Mountain-500 Black,44  2  1
     Mountain-500 Black,48  1 2 1
     Mountain-500 Silver,40  1 2 1
     Mountain-500 Silver,44  1 1 1
     Mountain-500 Silver,482   
Road-750  1516
    Road-750 Black,44  107
    Road-750 Black,48  59
Hitch Rack1663
   Hitch Rack1663

这份表已经出现了汇总信息。每个模型的汇总信息就是该模型的相关产品销售额的综合或叫聚合(aggregation)。“模型”属性和“产品”属性以层次结构(hierarchy)进行组织,由“模型”属性的成员作为层次结构的做高层,“产品”属性的成员作为最底层。通过将产品和模型组织成层次结构,并将产品值聚合成某一种模型值,提供了额外的元数据,从而提高了数据传递信息的能力。

表1.6所示的报表已经接近AWC公司生产更多产品所采用的报表。有了层次结构,就不用将全部的层级(level)展示出来,例如,我们只想查看“模型”层级,就可以让分析员将“产品”级排除在外。

我们再继续重构一张表,通过表1.7所示的汇总报表可以对公司业绩有一个更为全面的了解。

表1.7 AWC公司按模型和月份列出销售报表

       模型        2011年1月   2011年2月      2011年3月        2011年4月  
   Mountain-500  3866
   Road-750  1516
   Hick Rack1663

 

到目前为止,我们已经看到如何详细的产品属性划分为相关属性的集合。在进行多维分析时,会遇到许多其他的属性。例如,我们可能会经常创建包含日期、雇员、地理信息、客户和其他许属性的报表。

 

您可能感兴趣的与本文相关的镜像

Qwen3-8B

Qwen3-8B

文本生成
Qwen3

Qwen3 是 Qwen 系列中的最新一代大型语言模型,提供了一整套密集型和专家混合(MoE)模型。基于广泛的训练,Qwen3 在推理、指令执行、代理能力和多语言支持方面取得了突破性进展

内容概要:本文介绍了一个基于多传感器融合的定位系统设计方案,采用GPS、里程计和电子罗盘作为定位传感器,利用扩展卡尔曼滤波(EKF)算法对多源传感器数据进行融合处理,最终输出目标的滤波后位置信息,并提供了完整的Matlab代码实现。该方法有效提升了定位精度与稳定性,尤其适用于存在单一传感器误差或信号丢失的复杂环境,如自动驾驶、移动采用GPS、里程计和电子罗盘作为定位传感器,EKF作为多传感器的融合算法,最终输出目标的滤波位置(Matlab代码实现)机器人导航等领域。文中详细阐述了各传感器的数据建模方式、状态转移与观测方程构建,以及EKF算法的具体实现步骤,具有较强的工程实践价值。; 适合人群:具备一定Matlab编程基础,熟悉传感器原理和滤波算法的高校研究生、科研人员及从事自动驾驶、机器人导航等相关领域的工程技术人员。; 使用场景及目标:①学习和掌握多传感器融合的基本理论与实现方法;②应用于移动机器人、无人车、无人机等系统的高精度定位与导航开发;③作为EKF算法在实际工程中应用的教学案例或项目参考; 阅读建议:建议读者结合Matlab代码逐行理解算法实现过程,重点关注状态预测与观测更新模块的设计逻辑,可尝试引入真实传感器数据或仿真噪声环境以验证算法鲁棒性,并进一步拓展至UKF、PF等更高级滤波算法的研究与对比。
内容概要:文章围绕智能汽车新一代传感器的发展趋势,重点阐述了BEV(鸟瞰图视角)端到端感知融合架构如何成为智能驾驶感知系统的新范式。传统后融合与前融合方案因信息丢失或算力需求过高难以满足高阶智驾需求,而基于Transformer的BEV融合方案通过统一坐标系下的多源传感器特征融合,在保证感知精度的同时兼顾算力可行性,显著提升复杂场景下的鲁棒性与系统可靠性。此外,文章指出BEV模型落地面临大算力依赖与高数据成本的挑战,提出“数据采集-模型训练-算法迭代-数据反哺”的高效数据闭环体系,通过自动化标注与长尾数据反馈实现算法持续进化,降低对人工标注的依赖,提升数据利用效率。典型企业案例进一步验证了该路径的技术可行性与经济价值。; 适合人群:从事汽车电子、智能驾驶感知算法研发的工程师,以及关注自动驾驶技术趋势的产品经理和技术管理者;具备一定自动驾驶基础知识,希望深入了解BEV架构与数据闭环机制的专业人士。; 使用场景及目标:①理解BEV+Transformer为何成为当前感知融合的主流技术路线;②掌握数据闭环在BEV模型迭代中的关键作用及其工程实现逻辑;③为智能驾驶系统架构设计、传感器选型与算法优化提供决策参考; 阅读建议:本文侧重技术趋势分析与系统级思考,建议结合实际项目背景阅读,重点关注BEV融合逻辑与数据闭环构建方法,并可延伸研究相关企业在舱泊一体等场景的应用实践。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值