自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 数据仓库建设规范

版本编号 V1.0 发布日期 2017-07-19 作 者 赵国明 发布范围 产研大数据团队 目 录 1 数据架构概述 2 1.1 原始数据层(ODS) 3 1.2 数据仓库层(DW) 3 1.3 数据集市层 (DM) 4 2 数据库命名规范 4 3 表命名规范 5 3.1 整体原则 5 3.2 原始数据层表命名规范 5 3.3 数据仓库层表命名规范 5 3.4 数据集市层 6 4 字段命名规范 7 4.1 整体原则 7 1 数据架构概述 数据仓库架构分三层:原始数据层(ODS)、数据仓库层(DW

2020-09-25 15:08:50 1232

原创 数据倾斜解决办法

Hive数据常见的倾斜问题和解决办法 转自:https://blog.youkuaiyun.com/xinzhi8/article/details/71455883 操作: 关键词 情形 后果 Join 其中一个表较小,但是key集中 分发到某一个或几个Reduce 上的数据远高于平均值 大表与大表,但是分桶的判断字段0值或空值过多 这些空值都由一个reduce处理非常慢 group by group by 维度过小,某值的数量过多 处理某值的reduce非常耗时 Count Distinct

2020-09-25 15:00:18 368

原创 Kafka随笔日记

afka是一款基于发布和订阅的消息系统。一般被称为分布式提交日志或分布式流平台。 Kafka系统是按照一定的顺序持久化保存的,可以按需读取。 Kafka的数据单元被称为消息。类似于数据库中表的一行记录,消息由字节组成,所以没有特别的格式和含义。 消息有一个可选的元数据,就是键,键也是一个字节数组。当消息以一种可控的方式写入分区时,会用到键,最简单的方式就是为键生成一个散列值,然后使用散列值对主题的分区属进行取模。这样可以保证具有相同键的消息总是会写到相同的分区。 批次时一组消息,这些消息属于同一个主题和分区

2020-09-25 13:40:33 179

原创 数仓随笔--flume工具

Flume概述 3.1、Flume概念 Flume 是一个分布式、高可靠、高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据,同时,Flume 提供对数据的简单处理,并写到各种数据接收方的能力。 1、 Apache Flume 是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统,和Sqoop 同属于数据采集系统组件,但是 Sqoop 用来采集关系型数据库数据,而 Flume 用来采集流动型数据。 2、 Flume 名字来源于原始的近乎实时的日志数据采集工具,现在被广泛用于任何流事

2020-09-22 19:07:51 412

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除