- 博客(16)
- 收藏
- 关注
原创 ext2.2下载oozie用
下载去吧,不用c币:http://archive.cloudera.com/gplextras/misc/ext-2.2.zip
2018-10-28 23:38:30
638
3
原创 mapReduce 的join
mapreduce join分为两种: 1、map的join 2、reduce的join 思路: 1、map的join是将一个数据集的数据放入Map集合中,将集合在setup放入到缓存中,所以涉及DistributedCache,因为涉及在内存,所以放入缓存的数据集样本要小,否则不适用,所以这个业务场景比较少 setup中代码实现如下:(官网有源码) @Override ...
2018-10-08 23:39:21
595
原创 对mapReduce性能调优的总结
mapReduce性能调优的着手点有如下几个 1、map输出的压缩 2、ReduceTask数量的设置 3、shuffle数据处理过程中的一些参数 分别如下: 一、map的输出压缩 设定方法有两种 1、通过configuration.set(name,value)设置 2、通过配置文件mapred-site.xml设置 重要参数如下: name1:mapreduce.map.o...
2018-10-07 22:04:18
476
原创 自定义MapReduce数据类型的总结
MapReduce中的所有的数据类型要实现Writable接口,以便可以被序列化网络传输和文件储存 基本数据类型有8种,看源码发现都实现了WritableComparable接口,此接口继承了Writable,对key进行排序,所以我们在定义key的数据类型时必须要实现WritableComaprable接口。 以下分别分为两部分介绍:1、对于key的数据类型自定义 2、对于value的...
2018-10-07 21:36:51
398
原创 Tool接口对MapReduce进行优化
继承Configured,实现Tool,不在run方法中new Configuration,调用run时,用ToolRunner调用 package com.kfk.hadoop.mr; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apach...
2018-10-04 19:37:10
426
原创 JAVA API 删除HDFS文件
案例:执行wordcount,若输出目录存在则报错,可先判断目录存在,则删除: public static void main(String[] args){ args = new String[]{ "/user/kfk/data/wc", "/user/kfk/data/output" }; WordCoun...
2018-10-04 14:50:28
1020
原创 JAVA API 上传下载文件到HDFS
package com.kfk.hadoop.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.F...
2018-10-04 14:45:05
821
原创 structured Streaming与mysql的集成
对于structured Streaming目前版本,没有很好的对mysql等关系型数据库集成的API,所以需要以其它的方式实现 博客地址:https://databricks.com/blog/2017/04/04/real-time-end-to-end-integration-with-apache-kafka-in-apache-sparks-structured-streaming.h...
2018-08-27 11:30:25
1445
2
原创 sparkStreaming与kafka集成进行数据处理
集成分为两个版本:http://spark.apache.org/docs/2.2.0/streaming-kafka-integration.html 下例是0.8版本的例子:https://github.com/apache/spark/blob/v2.2.0/examples/src/main/scala/org/apache/spark/examples/streaming/Dire...
2018-08-26 19:42:58
281
原创 spark三大弹性分布式数据集比较
三大弹性分布式数据集:RDD,DataFrame,Dataset 为高效处理超大型数据提供便利 RDD 优点: 1、编译类型安全:编译时就能检查类型错误 2、面向对象:直接通过类名.的方式操作数据 缺点: 1、序列化和反序列化开销大:无论是集群间通信还是IO操作都需对对象的结构和数据进行序列化和反序列化 2、GC的性能开销大:频繁的创建和销毁对象,增加GC DataFrame...
2018-08-24 23:23:14
590
原创 hbase与flume集成编程
1、官网下载src包,解压,需要导入的——》flume-ng-sinks——》flume-ng-hbase-sink 2、编辑SimpleAsyncHbaseEventSerializer:复制一份重命名为MySimpleAsyncHbaseEventSerializer,修改代码,案例: @Override public List<PutRequest> getAction...
2018-08-19 12:16:02
600
1
原创 Redhat编译Hue 3.9.0
需要的依赖 sudo yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel openldap-devel python-devel sqlite-devel openssl-devel mysql-devel g...
2018-08-18 20:29:27
178
原创 scala学习
1、scala选择题100道:https://www.cnblogs.com/steamedbundad/p/scalaExercise.html 2、scala练习题:https://blog.youkuaiyun.com/World_Programming/article/details/70821782 3、练习题:https://blog.youkuaiyun.com/qq_26786555/article/...
2018-08-16 11:30:51
274
转载 Hbase基本概念
一、简介 Hbase是分布式、面向列的开源数据库(其实准确的说是面向列族)。HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hbase提供高性能的计算能力,Zookeeper为Hbase提供稳定服务和Failover机制,因此我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。 二、基本特点 1、海量储存 2、面向列 3、极易扩...
2018-08-07 00:16:57
831
原创 为什么要学习网络协议?
****************(本文为极客时间app刘超的《趣谈网络协议》学习笔记) 《圣经》通天塔故事:上帝为了阻止人类联合,让人类说不同的语言,人类无法沟通,达不成“协议”,通天塔计划失败。互联网世界有统一的语言,所以连接在一起。 计算机中输入的文字,计算机能读懂,就是人类与计算机沟通的协议,只有通过这种协议,计算机才能知道我们想要他做什么。 协议三要素: 1.语法:一段内容符合一定...
2018-08-01 00:58:05
641
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人