
数据仓库
文章平均质量分 53
做一只精致IT小白
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DataWarehouse(总)数据仓库博客总览
数据仓库(子辰)原创 2019-08-22 11:53:24 · 318 阅读 · 1 评论 -
【MapReduce】03.MapReduce框架原理
数据切片:数据切片是MapReduce程序计算输入数据的单位,一个切片会对应一个MapTask(逻辑切分,并非物理切分)MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。数据块:Block是HDFS物理上的数据分割,数据块是HDFS存储数据单位。1)一个Job的Map阶段并行度由客户端在提交Job时的切片数决定。2)每一个Split切片分配一个MapTask并行实例处理。4)切片时不考虑数据集整体,而是逐个针对每个文件单独切片。原创 2024-03-07 13:50:08 · 536 阅读 · 0 评论 -
【DataW】建模理论
每个操作型事件,基本都是发生在实体之间,伴随发生会产生可度量的值,而这个过程会产生一个事实表,存储了每个可度量的事件。在1NF的基础上,实体的属性完全依赖于主关键字,不能存在仅依赖住关键字一部分的属性,也就是不存在局部依赖。4.数据质量:改善数据统计口径的不一致性,减少数据计算错误的可能性,提供高质量、一致的数据访问平台。2.数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本。2.每个维表的主键为单列,且主键放置在事实表中,作为两边连接的外键。原创 2024-01-24 15:05:43 · 459 阅读 · 0 评论 -
【MapReduce】01.概述
MapReduce是一个分布式运算程序的编程框架,用于Hadoop数据分析的核心框架。MapReduce的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。原创 2024-01-19 15:30:33 · 385 阅读 · 0 评论 -
【Spark】02.Spark-IDEA配置
1.基于jdk1.8创建一个maven项目2.增加scala-sdkProject Structure - Platform Settings - Global Libraries3.增加Spark的Maven依赖<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-c原创 2022-03-17 10:14:45 · 2257 阅读 · 0 评论 -
【Spark】01.Spark框架
Spark是一种由Scala语言开发的快速、通用、可扩展打大数据分析引擎,Spark更倾向于计算。一次性数据计算框架在处理数据的时候,会从存储设备中读取数据,进行逻辑操作,然后将处理的结果重新存储到介质中。因此,MapReduce不适合迭代式数据开发。但是Spark基于内存,当资源受到限制的时候,还是需要依赖MapReduce,因此不能完全代替。SparkCore提供Spark最基础与核心的功能,以下功能都是基于Core进行扩展SparkSQLSpark用来操作结构化数据SparkStre原创 2022-03-16 22:56:08 · 1823 阅读 · 0 评论 -
数仓_数仓构建流程
原创 2021-11-23 16:13:21 · 1190 阅读 · 0 评论 -
MaxCompute —【存储_压缩操作】
压缩方案说明:压缩前后请务必进行数据测试对比,确保数据压缩前后一致。对比工具:https://datacompare.alibaba-inc.com/#/home原理说明在默认情况夏,数据是按照写入时间顺序存储的,这样物理上相邻的数据其实相似性并不高。在当前列存储当道的大背景下,如果让某个人/设备的数据在物理上相邻,就能够用20%的代价达到80%的数据存储优化效果。【desc extended <table_name>;】...原创 2020-11-12 12:01:23 · 1008 阅读 · 0 评论 -
Hive —【order by/sort by】
Order byOrder by会对输入做全局排序,因此只有一个reduce(多个reduce无法保证全局有序)只有一个reduce,会导致当前输入规模较大时,需要较长的计算时间。Set hive.mapred.mode=nonstrict;(default value/默认值)Set hive.mapred.mode=strict;Order by 和数据库中的order by功能一致,按照某一项&几项排序输出。与数据库中的order by的区别在于hive.mapred.mode=原创 2020-11-11 00:33:51 · 562 阅读 · 0 评论 -
Scala—scala中不建议使用return
在scala中使用return的话,编译的时候会提示the latest statement is method is automatically returned, use of th return keyword is redundant.这个警告是说最后一个语句的结果会自动返回,使用return关键字是多余的。而我们在使用Idea写scala代码时使用了return后并没有直接提示,...原创 2020-03-23 22:40:17 · 1213 阅读 · 0 评论 -
DataWarehouse -【马蜂窝】数据仓库设计与实践
Part.1 马蜂窝数据仓库与数据中台最近几年,数据中台概念的热度一直不减。2018 年起,马蜂窝也开始了自己的数据中台探索之路。数据中台到底是什么?要不要建?和数据仓库有什么本质的区别?相信很多企业都在关注这些问题。我认为数据中台的概念非常接近传统数据仓库+大数据平台的结合体。它是在企业的数据建设经历了数据中心、数据仓库等积累之后,借助平台化的思路,将数据更好地进行整合与统一,以组件化的方...原创 2019-11-07 15:48:30 · 721 阅读 · 0 评论 -
DataWarehouse - 数据仓库的分层
1原创 2019-10-12 16:50:04 · 460 阅读 · 0 评论 -
Hive(二)函数
Hive常用函数原创 2019-10-11 11:01:19 · 194 阅读 · 0 评论 -
Hive(一)调优
Hive-调优HiveQL是一种声明式语言,用户会提交声明式的查询,而Hive会将其转化为MapReduce job。Hive-1 使用Explain(解析Hive如何转化为MapReduce)一个Hive任务包含有一个或多个stage,不同的stage之间会存在着依赖关系。一个stage可以是一个MapReduce,也可以是【抽样、合并、limit限制】Hive-2 使用Explain ...原创 2019-09-17 14:08:20 · 255 阅读 · 0 评论