
大数据
文章平均质量分 56
wy888882
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据之路(二)——MapReduce 编程案例(数据倾斜解决方案——打散倾斜的key)
将key加上随机数,减少数据倾斜import java.io.IOException;import java.util.Random;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import or...原创 2019-03-24 16:08:52 · 57 阅读 · 0 评论 -
大数据之路(四)———Hive(性能调优)
算法原创 2019-03-24 16:15:28 · 70 阅读 · 0 评论 -
大数据之路——flume(1.9.0官网学习)
Flume简介Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。2011 年 10 月 22 号,cloudera 完成了 Flume-728,对 Flume 进行了里程碑式的改动:重构核心组件、核心配置以及代码架构,重构后的版本统称为 Flume NG(next generation);改动的另一原因是将 Flume 纳...原创 2019-04-22 09:53:55 · 964 阅读 · 0 评论 -
大数据之路(八)——kafka
kafka简介原创 2019-04-30 19:52:16 · 884 阅读 · 0 评论 -
hive调优
调优手段(1)利用列裁剪当待查询的表字段较多时,选取需要使用的字段进行查询,避免直接select *出大表的所有字段,以免当使用Beeline查询时控制台输出缓冲区被大数据量撑爆。(2)JOIN避免笛卡尔积JOIN场景应严格避免出现笛卡尔积的情况。参与笛卡尔积JOIN的两个表,交叉关联后的数据条数是两个原表记录数之积,对于JOIN后还有聚合的场景而言,会导致reduce端处理的数据量暴增,...原创 2019-07-22 16:20:59 · 62 阅读 · 0 评论 -
大数据之路(二)——MapReduce 编程案例(数据倾斜解决方案)
利用combiner组件,在map端先进行一次局部聚合。以wordcount为例://map端 函数import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;...原创 2019-03-24 16:06:40 · 53 阅读 · 0 评论 -
大数据之路(二)——MapReduce 编程案例(join算法具体实现)
mapreduce编程模型复习将两类数据进行join根据用户uid对两类数据进行聚合。思路:map端:不管worker读到的是什么文件,我们的map方法中是可以通过context来区分的对于order数据,map中切字段,封装为一个joinbean,打标记:t_order对于user数据,map中切字段,封装为一个joinbean,打标记:t_user然后,以uid作为key,...原创 2019-03-23 22:22:49 · 68 阅读 · 0 评论 -
大数据之路(二)——MapReduce
MapReduce介绍原创 2019-03-22 09:37:50 · 230 阅读 · 0 评论 -
大数据之路(二)——MapReduce 编程案例(WordCount)
WordCount案例导入相关jar包——share文件夹下的hadoop文件夹下的common、hdfs、mapreduce文件夹下所有jar包,以及mapreduce文件夹下的依赖jar包,即lib文件夹下的所有jar包。import org.apache.hadoop.mapreduce.Mapper; /**KEYIN:map task 读取到的数据的key类型,是一行的起始偏...原创 2019-03-22 09:39:24 · 295 阅读 · 0 评论 -
大数据之路(三)——yarn框架
yarn框架简介原创 2019-03-22 10:38:50 · 284 阅读 · 0 评论 -
大数据之路(二)——MapReduce编程案例(自定义类型序列化接口实现)
输入数据的形式第二列开始每列分别为用户的手机号,网络设备物理地址,访问网站的ip,访问的网站的域名、网站的标题、请求次数、响应次数、上行流量(请求网站话费的流量包)、下行流量(响应数据花费的流量包)目标统计出每个手机号对应的总的上行流量、总的下行流量、以及总的流量//传入的参数分别表示:文件的行偏移量LongWritable类型,一行文件的内容Text类型,输出的手机号Text类型,每一...原创 2019-03-23 14:09:35 · 46 阅读 · 0 评论 -
大数据之路(二)——MapReduce 编程案例(Topn)
数据形式如上为某一个人在某一天访问的网站目标求被访问次数最多的前5个页面reduce task 在调用完reduce方法之后并不是马上就结束任务,而是要再调用一下cleanup函数。所以我们可以将reduce方法处理之后的数据放到hashMap函数中处理一下,再调用cleanup函数输出,就会得到相应的topN数据。//mapper方法实现import java.io.IOExcep...原创 2019-03-23 14:53:26 · 47 阅读 · 0 评论 -
大数据之路(二)——MapReduce 编程案例(全局倒排序)
数据形式目标求每一个页面的总的访问次数,最后按全局倒排序排列Map函数阶段会经历排序sort和combine阶段,所以可以在map阶段直接进行排序;也就是可以写两个mapreduce,第一个输出页面访问的总次数,第二个mapreduce将第一个的结果作为输入,调用sort函数之后,直接在reduce端输出import java.io.IOException;import org...原创 2019-03-23 15:13:32 · 24 阅读 · 0 评论 -
大数据之路(二)——MapReduce 编程案例(将流量按归属地输出)
文件形式第一列为手机号,第二列上行流量,第二列为下行流量,第三列为总流量目标将手机号码归属地一致的输出到一个文件中map函数之后的结果会根据map的输出key计算他的hashcode值,再用值的莫除以reducetask的数量,得到响应分组。import java.util.HashMap;import org.apache.hadoop.io.Text;import org....原创 2019-03-23 15:27:01 · 43 阅读 · 0 评论 -
大数据之路(四)——Hive(原理介绍)
Hive简介原创 2019-03-23 15:35:31 · 85 阅读 · 0 评论 -
大数据之路(四)———Hive(基本用法)
Hive基本用法创建一个数据库create database myhive;使用新的数据库use myhive;查看当前正在使用的数据库select current_database();在数据库中创建一张表create table student(id int, name string, sex string, age int, department string...原创 2019-03-24 16:26:47 · 88 阅读 · 0 评论 -
大数据之路(二)——MapReduce 编程案例(倒排索引)
数据形式如下需要得到如下结果:例如:hello这个单词在a.txt中出现4次,b.txt中出现4次,c.txt中出现三次即统计出每一个单词在每一篇文档中出现的次数。思路:maptask在运行前就已经被分配好要处理哪一个分片,要处理的哪一个切片就包含在map(key,value,context)的context中,所以只需要改写响应的context方法就行。import java.io...原创 2019-03-23 19:56:54 · 39 阅读 · 0 评论 -
大数据之路(二)——MapReduce 编程案例(高效求topN)
文件形式如下:文件中的每一列分别为:第一列为订单顺序,第二列为用户名,第三列为商品名,第四列为消费金额,第五列为购买数量需求如下:求出每一个订单中成交金额最大的三笔;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.io.Serializable;i...原创 2019-03-23 21:37:11 · 60 阅读 · 0 评论