自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 数仓命名规范

数仓模型命名规范

2024-11-14 10:29:45 942

原创 hive调优

调优手段(1)利用列裁剪当待查询的表字段较多时,选取需要使用的字段进行查询,避免直接select *出大表的所有字段,以免当使用Beeline查询时控制台输出缓冲区被大数据量撑爆。(2)JOIN避免笛卡尔积JOIN场景应严格避免出现笛卡尔积的情况。参与笛卡尔积JOIN的两个表,交叉关联后的数据条数是两个原表记录数之积,对于JOIN后还有聚合的场景而言,会导致reduce端处理的数据量暴增,...

2019-07-22 16:20:59 39 1

原创 大数据之路(八)——kafka

kafka简介

2019-04-30 19:52:16 826

原创 大数据之路——flume(1.9.0官网学习)

Flume简介Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。2011 年 10 月 22 号,cloudera 完成了 Flume-728,对 Flume 进行了里程碑式的改动:重构核心组件、核心配置以及代码架构,重构后的版本统称为 Flume NG(next generation);改动的另一原因是将 Flume 纳...

2019-04-22 09:53:55 936

原创 大数据之路(四)———Hive(基本用法)

Hive基本用法创建一个数据库create database myhive;使用新的数据库use myhive;查看当前正在使用的数据库select current_database();在数据库中创建一张表create table student(id int, name string, sex string, age int, department string...

2019-03-24 16:26:47 69 1

原创 大数据之路(四)———Hive(性能调优)

算法

2019-03-24 16:15:28 48 1

原创 大数据之路(二)——MapReduce 编程案例(数据倾斜解决方案——打散倾斜的key)

将key加上随机数,减少数据倾斜import java.io.IOException;import java.util.Random;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import or...

2019-03-24 16:08:52 40 1

原创 大数据之路(二)——MapReduce 编程案例(数据倾斜解决方案)

利用combiner组件,在map端先进行一次局部聚合。以wordcount为例://map端 函数import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;...

2019-03-24 16:06:40 38 1

原创 大数据之路(二)——MapReduce 编程案例(join算法具体实现)

mapreduce编程模型复习将两类数据进行join根据用户uid对两类数据进行聚合。思路:map端:不管worker读到的是什么文件,我们的map方法中是可以通过context来区分的对于order数据,map中切字段,封装为一个joinbean,打标记:t_order对于user数据,map中切字段,封装为一个joinbean,打标记:t_user然后,以uid作为key,...

2019-03-23 22:22:49 39 1

原创 大数据之路(二)——MapReduce 编程案例(高效求topN)

文件形式如下:文件中的每一列分别为:第一列为订单顺序,第二列为用户名,第三列为商品名,第四列为消费金额,第五列为购买数量需求如下:求出每一个订单中成交金额最大的三笔;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.io.Serializable;i...

2019-03-23 21:37:11 43 1

原创 大数据之路(二)——MapReduce 编程案例(倒排索引)

数据形式如下需要得到如下结果:例如:hello这个单词在a.txt中出现4次,b.txt中出现4次,c.txt中出现三次即统计出每一个单词在每一篇文档中出现的次数。思路:maptask在运行前就已经被分配好要处理哪一个分片,要处理的哪一个切片就包含在map(key,value,context)的context中,所以只需要改写响应的context方法就行。import java.io...

2019-03-23 19:56:54 26 1

原创 大数据之路(四)——Hive(原理介绍)

Hive简介

2019-03-23 15:35:31 40 1

原创 大数据之路(二)——MapReduce 编程案例(将流量按归属地输出)

文件形式第一列为手机号,第二列上行流量,第二列为下行流量,第三列为总流量目标将手机号码归属地一致的输出到一个文件中map函数之后的结果会根据map的输出key计算他的hashcode值,再用值的莫除以reducetask的数量,得到响应分组。import java.util.HashMap;import org.apache.hadoop.io.Text;import org....

2019-03-23 15:27:01 26 1

原创 大数据之路(二)——MapReduce 编程案例(全局倒排序)

数据形式目标求每一个页面的总的访问次数,最后按全局倒排序排列Map函数阶段会经历排序sort和combine阶段,所以可以在map阶段直接进行排序;也就是可以写两个mapreduce,第一个输出页面访问的总次数,第二个mapreduce将第一个的结果作为输入,调用sort函数之后,直接在reduce端输出import java.io.IOException;import org...

2019-03-23 15:13:32 12 1

原创 大数据之路(二)——MapReduce 编程案例(Topn)

数据形式如上为某一个人在某一天访问的网站目标求被访问次数最多的前5个页面reduce task 在调用完reduce方法之后并不是马上就结束任务,而是要再调用一下cleanup函数。所以我们可以将reduce方法处理之后的数据放到hashMap函数中处理一下,再调用cleanup函数输出,就会得到相应的topN数据。//mapper方法实现import java.io.IOExcep...

2019-03-23 14:53:26 34 1

原创 大数据之路(二)——MapReduce编程案例(自定义类型序列化接口实现)

输入数据的形式第二列开始每列分别为用户的手机号,网络设备物理地址,访问网站的ip,访问的网站的域名、网站的标题、请求次数、响应次数、上行流量(请求网站话费的流量包)、下行流量(响应数据花费的流量包)目标统计出每个手机号对应的总的上行流量、总的下行流量、以及总的流量//传入的参数分别表示:文件的行偏移量LongWritable类型,一行文件的内容Text类型,输出的手机号Text类型,每一...

2019-03-23 14:09:35 31 1

原创 大数据之路(三)——yarn框架

yarn框架简介

2019-03-22 10:38:50 271 1

原创 大数据之路(二)——MapReduce 编程案例(WordCount)

WordCount案例导入相关jar包——share文件夹下的hadoop文件夹下的common、hdfs、mapreduce文件夹下所有jar包,以及mapreduce文件夹下的依赖jar包,即lib文件夹下的所有jar包。import org.apache.hadoop.mapreduce.Mapper; /**KEYIN:map task 读取到的数据的key类型,是一行的起始偏...

2019-03-22 09:39:24 280 1

原创 大数据之路(二)——MapReduce

MapReduce介绍

2019-03-22 09:37:50 207 1

原创 大数据之路(一)——HDFS分布式文件系统

HDFS介绍HDFSHDFS是一个主/从(Mater/Slave)体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件执行CRUD。HDFS一般是用来“一次写入,多次读取”,不适合做实时交互性很强的事情,不适合存储大量小文件。HDFS实现将文件分布式存储在很多服务器上, 其功能是帮用户管理文件。其顶层目录为"/",用户可以将文件存放在相关目录下。例如:/data/20...

2019-03-19 23:16:30 414 1

原创 Windows10 修改hosts文件

非管理员修改hosts步骤1.找到 hosts文件所在位置:C:\Windows\System32\drivers\etc2. 将hosts文件拖到桌面,出现权限管理提醒,单击“继续”3. 在桌面,单击hosts文件——打开方式——记事本——添加相应内容4. 单击“文件”——保存5. 保存完成后,将桌面的hosts文件重新拉回C:\Windows\System32\drivers\etc...

2019-03-19 19:42:29 463

原创 Windows10 jdk1.8安装导向及环境变量配置

去官网下载jdkjdk下载地址下载后双击安装按照安装导向一路 “下一步”安装完成,进行环境变量配置单击计算机——系统属性——系统信息在环境变量对话框中的系统变量中点击“新建”按钮,在弹出的新建系统变量里的变量名中输入JAVA_HOME,在变量值中输入JDK的安装目录: C:\Program Files\Java\jdk1.8.0_201 ,然后点击确定在系统变量中查看是...

2019-03-19 19:40:43 241

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除