
大数据
文章平均质量分 54
Stannis
小白
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive小文件问题
【代码】Hive小文件问题。原创 2023-04-07 13:40:11 · 900 阅读 · 1 评论 -
元数据管理概述
参考公众号文章:数据治理:元数据及元数据管理策略、方法和技术原创 2023-04-07 10:58:37 · 458 阅读 · 0 评论 -
数据质量管理概述
指的是在组织业务,管理要求下,符合数据使用者满足业务,管理需求的评价方式。原创 2023-04-07 10:37:44 · 730 阅读 · 0 评论 -
数据倾斜问题
一个任务中,数据文件在进入map阶段之前会进行切分,默认是128M一个数据块,但是如果当对文件使用GZIP压缩等不支持文件分割操作的压缩方式时,MR任务读取压缩后的文件时,是对它切分不了的,该压缩文件只会被一个任务所读取,如果有一个超大的不可切分的压缩文件被一个map读取时,就会发生map阶段的数据倾斜。这里我们需要明确一个概念,数据放到同一个reduce中的原因不是因为字段能不能join上,而是因为shuffle阶段的hash操作,只要key的hash结果是一样的,它们就会被拉到同一个reduce中。转载 2023-04-06 16:22:12 · 481 阅读 · 0 评论 -
维度建模概述
因此,说白了,所谓的维度建模就是一种组织数据仓库的形式、模型,用这种方式组织搭建的数据仓库,对快速支持数据分析有着巨大的帮助。比如,在一个零售业数据仓库中,事实表存着销售人员的销售记录,某天一个销售人员从北京分公司调到上海分公司了,那么如何来保存、处理这个变化呢?在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化。所谓星座模型,是多个事实表共享维度表, 因而可以视为星型模型的集合,故亦称星座模型(星系模型)。另外,通常事实表中的。通常,最有用的事实就是数字类型的事实和可加类型的事实。原创 2023-04-06 15:52:02 · 966 阅读 · 0 评论 -
【Hive/Spark】常见参数配置
(用于spark3中字段类型不匹配(例如datetime无法转换成date),消除sql中时间歧义,将Spark .sql. LEGACY . timeparserpolicy设置为LEGACY来恢复Spark 3.0之前的状态来转化)(4)set spark.sql.finalStage.adaptive.advisoryPartitionSizeInBytes=2048M;原创 2023-04-03 15:08:17 · 1747 阅读 · 0 评论 -
hive -e和 -f的区别
hive -e + sql语句hive -e "create database mall;"hive -f + sql文件hive -f ../sql/ods_ddl.sql原创 2022-03-22 16:37:16 · 1908 阅读 · 0 评论