- 博客(43)
- 资源 (2)
- 收藏
- 关注

原创 hive 参数调优手册
hive执行过程1. reduce 个数设置方法1.调整hive.exec.reducers.bytes.per.reducer和hive.exec.reducers.maxhive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1G)hive.exec.reducers.max(每个任务最大的reduc...
2019-11-17 16:42:21
674
原创 flink为什么这么火
在实时计算里,最出名的是几个框架应该就是spark streaming 、storm和flink ,最近两年各大互联网大厂纷纷切到flink,为什么?为什么这么火?一个表格告诉你!1.在模型上,storm 和 flink 都是实时流,来一条处理一条,而spark streaming 是一个微批次处理,数据流被切分成一个个小的批次,一般单位是秒级。2.在功能上,flink 支持事件时间(ev...
2021-03-30 22:09:49
335
原创 hdfs读写过程是怎样的?
1.文件读取过程 1.客户端通过调用FileSyste 对象的open()方法来打开希望读取的文件,对于Hdfs来说,这个对象是DistributedFileSystem的一个实例,2.通过使用远程过程调用(RPC)来调用namenode,以确定文件起始块的位置,对于每个块,namenode返回存有该块副本的datanode的地址,并且datanode根据他们与...
2021-01-12 21:46:10
235
原创 Yarn是个什么玩意
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。 在hadoop1.0中有一些弊端,比如hdfs元数据信息保存的单节点故障,并且任务计算框架只能使用mapreduce,而且造成了任务管理器的压力过大,因此在hadoop2.0中加入了yarn资源统一管理的机制,不仅解...
2021-01-12 21:45:01
522
原创 十万个为什么(hadoop 1期)?
纳尼?纳尼?纳尼?1.什么是map的数据本地化优化?Hadoop 在存储有输入数据(hdfs中的数据)的节点上运行map任务,可以获得最佳性能,因为他无需使用宝贵的集群带宽资源。这就是所谓的数据本地化优化,但是有时对于一个map任务的输入分片来说,存储该分片的hdfs数据块副本的所有节点可能正在运行其他map任务,此时作业调度需要从某一数据块所在的机架中的一个节点上寻找一个空闲的map槽(...
2020-11-01 11:43:05
184
原创 小伙子,你知道缓慢变化维有多少种处理方法吗?
什么是缓慢变化维?缓慢变化维有多少种处理方法?缓慢变化维,即同一维表中属性随时间发生变化,那对于这种变化的维度,在数据仓库建设时有多少种处理方法咧~一、基础型0.原样保留维度属性不会发生变化,保留原值。这种适合属性标记为‘原型’的的情况,像用户的身份证号,商品的上架时间等1.重写属性值被新值覆盖。这种情况只反映最近的工作,易实现,但破坏了历史情况,需小心使用2.增加新行在维度表中增加...
2020-07-18 21:51:25
525
原创 Doris调研学习
简介:Doris(原百度 Palo)是一款基于大规模并行处理技术的分布式 SQL 数据库,由百度在 2017 年开源,2018 年 8 月进入Apache 孵化器。定位:MPP 架构的关系型分析数据库PB 级别大数据集,秒级 / 毫秒级查询主要用于多维分析和报表查询2018 年进入 Apache 孵化器架构:Doris 的架构很简洁,只设 F...
2020-05-13 19:42:21
844
原创 数据仓库日期维表怎么做
最近终于有点时间了,东拼西凑的设计了一个日期维表,也是数仓设计时比较常用的。表结构如下:dt string COMMENT '日历日期',lunar_dt string COMMENT '农历日期',calendar_year int COMMENT '日历年',quarter_of_year int COMMENT '季度',month_of_year int COM...
2020-04-16 14:32:47
3573
2
原创 Map Reduce执行过程
Map Reduce 执行过程是数仓hql调优所必须熟知的,也是初高级数仓工程师面试基本必问的一块内容,所以为了面包,巩固学习一下。 Map Reduce 执行过程:map阶段 ---> shuffle阶段 ---> reduce阶段 map阶段 1.分片读取...
2020-03-18 11:09:41
1396
原创 算法修炼
冒泡与快排(更新中)冒泡排序快速排序import java.util.Arrays;public class SortFun { public void bubbleSort(int[] arr){ int n = arr.length; if(n<=1){ return ...
2020-01-14 09:39:40
157
原创 hive谓词下放
保留表(Preserved Row table)在outer join中需要返回所有数据的表叫做保留表,也就是说在left outer join中,左表需要返回所有数据,则左表是保留表;right outer join中右表则是保留表;在full outer join中左表和右表都要返回所有数据,则左右表都是保留表。Null Supplying table在outer ...
2020-01-04 11:51:36
213
原创 hive连续登录问题
现在有一张用户消费信息表,求问连续三天登录用户有多少个,用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数:user_id bigint comment '广告主id',daystr comment '日期'price decimal(10,2) comment '消费金额'数据预处理:create table user_log_test (user_...
2020-01-03 15:26:39
1207
2
原创 hive窗口函数使用
hive窗口函数基本面试面sql必考项目,这里画一下重点猴,那现在就操练起来~窗口函数格式:function_name(field) over (partition by field order by field rows between unbounded preceding and current row)窗口说明:n PRECEDING:往前n行数据n FOLL...
2019-12-25 00:01:59
160
原创 数仓基础入门-10-实践篇
有不少没涉及过数仓的同学问我一些比较基础的问题,为了更好的理解前面讲到的一些理论,写一个小小的demo体会一下~~我们要构建一个订单主题,构建订单明细,订单sku,订单粒度三张表。(假设我们只有一个数据域,单纯的为了举个例子,有一个大概的理解)模型设计及概念可阅读《数仓基础入门》系列历史文章,三言两语就打发了,具体深意自己体会~????ods层表日志表:ods_order_det...
2019-12-10 23:20:48
317
原创 数仓入门基础-9-缓慢变化维
缓慢变化维的提出是因为维度的属性并不是静态的,他会随着时间线延长发生缓慢的变化。常用的三种处理方式:1.重写维度值,不保留历史,始终取最新数据。2.插入新的维度行,历史事实数据与历史维度关联,新的事实数据与新的维度关联。3.插入新的维度列。举个????:有一个商店店铺,20191101类目是A,20191102更改为B。商店id类目其他属性日期100...
2019-12-02 23:30:33
209
原创 空字段引发的惨案
惨案经过:有一张效果广告的表tmp_xiaoguo_table,有字段 dt 日期,order_id 订单,ocpx_stage ocpx阶段(ocpx单子才有),price金额。dt string "日期"order_id bigint "订单id"ocpx_stage tinyint "ocpx阶段 "price decimal(28,2) "金额"数据...
2019-11-30 15:18:38
109
原创 号外号外!公众号开通了!!!
最近发现自己越来越懒了,好久没更新博客了,为了更好的可持续的监督自己学习,沉淀,我开通了公众号,保持每周至少更新一篇,立帖为证!!!另外公众号会定期分享一些免费视频与书籍,以供大家参考学习。本次分享的是廖雪峰 【大数据分析全栈工程师】视频课程(据说价值8000RMB),费了牛劲才搞到的,不要问我咋弄到的????,关注公众号,回复【资源】即可获得相关链接吼~1...
2019-11-28 00:00:35
202
原创 2019-11-20 shell学习
删除目录下固定大小的文件find . -name "*" -type f -size 0c | xargs -n 1 rm -f## 删除目录下大小为0 的文件循环查询hive表分区目录下文件个数#!/bin/sh#开始时间-yyyy-mm-dd Hbegin="2019-11-20 00:00:00"end=""2019-11-20 23:00:00""hive...
2019-11-20 23:13:21
128
原创 数仓入门基础-2-技术栈
1.hive sql >> 五星在大多数的工作中,主要用的语言就是sql,说难不难,只要做的多了,基本就可以融会贯通,当然也要了解 hive ,清楚常运用到的优化方法。推荐书籍:《hive权威指南》技能点:-1.常用的sql 查询语句,select where sum group order常用sql语句,row_number()over等窗口函数使用,ma...
2019-09-20 23:42:33
747
原创 数仓入门基础-8-模型设计
1.事实表模型设计事实表有三种类型 : 事务事实表、周期快照事实表和累积快照事实表。事务事实表用来描述业务过程,眼踪空间或时间上某点的度量事件,保存的是最原子的数据,也称为“原子事实表“;周期快照事实表以具有规律性的、可预见的时间间隔记录事实 ,时间间隔如每 天、每月、每年等;累积快照事实表用来表述过程开始和结束之间的关键步骤事件 ,覆盖过...
2019-09-17 23:49:00
417
原创 2.2正态分布检测
# -*- encoding: utf-8 -*-import sysimport numpy as npimport pandas as pdfrom scipy import stats as stsimport matplotlib.pyplot as pltimport matplotlib as mplif __name__ == "__main__":...
2019-08-27 14:36:25
268
原创 品牌广告、效果广告、RTB
品牌广告,以树立产品品牌形象,提高品牌的市场占有率为直接目的,突出传播品牌在消费者心中确定位置的一种方式,比如像瓜子二手车的视频广告,直接给消费者洗脑,让消费者在想买二手车的时候,第一时间想到这个平台。特点:长久慢 1.为塑造品牌服务是广告最主要的目标。广告就是要力图使品牌具有并且维持一个高知名度的品牌形象。 2.任何一个广告都是对品牌的长程投资...
2019-08-23 13:28:00
1344
原创 2.1概率分布
一、基本概念随机变量古典概率条件概率离散变量连续变量期望值二、离散变量概率分布二项分布伯努利分布泊松分布三、连续变量概率分布均匀分布正态分布指数分布伽玛分布偏态分布贝塔分布威布尔分布卡方分布F分布 ...
2019-07-25 12:54:00
145
原创 数仓入门基础-6-数仓规范
数仓规范,看似是无关紧要,实则是数仓实施最重要要素,也是衡量数仓标准的重要条件,有了规范,才能尽可能避免一些坑。1.模型分层数仓入门基础-5-数仓建模2.表命名规范ods层:数据引入层日志类非结构化表:ods_[数据域]_ [自定义内容]_ [刷新频率]业务库结构化同步表:ods_[数据域]_ [业务库名]_ [表名]_[刷新频率]dwd层:...
2019-07-24 00:48:00
1348
原创 1.4python实现描述性统计
# -*- encoding: utf-8 -*-import sysimport numpy as npimport pandas as pdfrom scipy import stats as stsif __name__ == "__main__": print("=========描述性统计学习========\n") ...
2019-07-23 21:09:00
117
原创 1.3 描述性统计-分布的形状
1.偏态系数,以平均数和中位数之差对标准差之比率来衡量偏斜的程度。偏斜系数小于0,则平均数在众数之左,图形呈左偏,又称负偏。偏态系数大于0,平均数在众数之右,图形呈右偏,又称正偏。偏态系数公式S表示偏度;i 表示第 i个数值; 表示平均值; n是采样数量偏离图2.峰态系数,衡量离群数据离群度的指标,与随机分布的四阶中心距对应,是数据...
2019-07-19 19:46:00
3240
原创 1.2描述性统计-离散程度
方差:样本各数据与均值(数学期望)之差的平方的平均数,反映的是样本与其均值的偏离程度。公式:方差其中σ2σ2为总体方差,XX为变量,μμ为整体均值,NN为总体例数。标准差:又称均方差, 是离均差平方的算数平方根。标准差能体现一个数据集的离散程度,平均数相同的两组数,标准差未必相同。公式:标准差方差与标准差用途:方差与我们要处理的...
2019-07-16 23:26:00
6925
原创 数仓入门基础-5-数仓建模
个人博客:https://renwula.github.io/,本系列基于互联网公司数仓,使用hive搭建数仓 从业中,数仓建模是一个数仓工程师需要的必备的能力,优秀的分层设计能够让整个数据体系更易理解和使用。所以想入行数仓数仓分层是需要补一补的,才能知道分层的意义。很多人都不理解为什么分层,分层的意义是什么,分层有这么重要吗?是的就是这么重要,说一下我的理解:>1....
2019-04-22 00:01:00
6561
原创 centos7.2安装docker 报错 Requires: container-selinux >= 2.9
下列操作用root操作的,如果不是root请用sudo操作##1.检查内核uname -r查看内核是否在3.10以上3.10.0-327.36.3.el7.x86_64##2.删除旧版本的dockeryum remove docker docker-client docker-client-latest docker-common docker-latest docke...
2019-03-16 19:37:55
2771
1
原创 数据仓库入门基础-1-漫谈数仓
百度百科的定义:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的特征在于面向主题、集成性、稳定性和时变性。从传统数仓到互联网数仓,有很多相似点也有很多不同点,...
2019-01-03 23:19:54
1666
1
原创 数仓入门基础-4-雪花模型与星型模型
个人博客:https://renwula.github.io/,本系列基于互联网公司数仓,使用hive搭建数仓星型模型与雪花模型,应该是数仓面试者最喜欢提的问题,也是比较容易理解的概念。1.星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,例图如下:星型模型2.当有一个或多个维表没有...
2018-12-18 20:58:00
557
原创 数仓入门基础-3-事实表与维度表
个人博客:https://renwula.github.io/,本系列基于互联网公司数仓,使用hive搭建数仓事实表,发生在现实世界中操作型时间,其产生的可度量数值,存储在事实表中,例如交易订单表。一般有以下几种事实特性:1.可加、半可加、不可加事实 。可加,例如pv(点击量) ; 半可加,例如数值差额,uv(用户量);不可加,例如比率。2.NULL值处...
2018-12-17 23:30:00
1167
原创 hadoop学习之路3-MapReduce作业生命周期
本系列均为hadoop1版本为准。。MR作业生命周期,即用户从作业提交到运行结束经历的整个过程。如图所示:hadoop MR 作业生命周期1.作业提交与初始化。用户提交作业后,首先由JobClient实例将作业相关信息,比如将程序jar包、作业配置文件、分片元信息文件等上传到hdfs上,其中分片元信息记录了每个输入分片的逻辑位置信息。然后Job...
2018-12-05 23:18:00
403
原创 hadoop学习之路2--MapReduce架构
本系列均为hadoop1版本为准。。MapReduce 也采用了Master/Slave(M/S)架构,主要有以下组件组成:Client、JobTracker、TaskTracker和Task。Map Reduce架构图1.Client用户编写的MapReduce 程序通过Client提交到JobTracker端;同时,用户可通过Client ...
2018-11-29 00:04:00
224
原创 hadoop学习之路1--hdfs架构
hadoop学习之路1–hdfs架构本系列均为hadoop1版本为准。。HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS架构如图,总体采用master/slave架构,主要由以下几个组件组成:Client、NameNode、SecondaryNameNode和DataNode1.ClientC...
2018-11-27 22:12:32
185
原创 hadoop学习之路1--hdfs架构
本系列均为hadoop1版本为准。。HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 HDFS架构如图,总体采用master/slave架构,主要由以下几个组件组成:Client、NameNode、SecondaryNameNode和Data...
2018-11-27 21:51:00
127
原创 数仓入门基础-2-数仓方法论
个人博客:https://renwula.github.io/,本系列基于互联网公司数仓,使用hive搭建数仓三范式(3NF): 第一范式(1NF)无重复的列。学号不能是一样的吧对不对。 第二范式(2NF)非主属性非部分依赖于主关键字。你的个人信息都对应一个学号是不是。 第三范式(3NF)属性不依赖于其它非主属性。学生信息表只能有学院的i...
2018-07-11 09:45:00
568
原创 数仓入门基础-1-漫谈数仓
个人博客:https://renwula.github.io/,本系列基于互联网公司数仓,使用hive搭建数仓百度百科的定义:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能...
2018-07-10 20:10:00
461
原创 hive 数据优化
影响Mapper的数量 1)文件数量 2)文件大小,根据下面参数进行切割 set mapred.max.split.size=128000000影响Reducer数量 mapred.reduce.tasks(强制指定reduce的任务数量) hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=
2018-01-07 23:56:49
282
原创 hive 排序函数
row_number() 是没有重复值的排序(即使两天记录相等也是不重复的),可以利用它来实现分页 dense_rank() 是连续排序,两个第二名仍然跟着第三名 rank() 是跳跃拍学,两个第二名下来就是第四名使用方法 fun() over( partition by field,field… order by flag.. asc/desc)按照分区排序,即 field…一样
2017-04-26 01:46:39
2933
GIT中文资源
2016-02-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人