
大数据
时光在路上
非常喜欢学习程序设计,一直在努力中……
展开
-
Hadoop2.0集群架构设计分析
众所周知Hadoop2.0包括三个部分,分布式存储HDFS、资源调度YARN、分布式计算MapReduce,而MapReduce是基于HDFS、YARN基础之上进行的分布式计算,HDFS和YARN搭建好分布式集群,MapReduce自然也就有了分布式集群环境,所以我们主要来说HDFS和YARN的集群架构。HDFS的集群架构HDFS有三个进程NN、SNN、DN,NN,Yarn是两个进程...原创 2019-03-30 19:03:22 · 1008 阅读 · 1 评论 -
Hadoop中的block Size和split Size是什么关系
学习hadoop map reduce过程的时候,第一步就是split。我们知道,hdfs中的数据是按block来存储的。问题来了,那么split和block之间是什么关系呢?我google到了stackoverflow上的这篇文章,我觉得这个帖子应该把关系说清楚了,翻译出来,欢迎大家批评指正!以下:问题hadoop的split size 和 block size 是什么关系? 是否 sp...原创 2019-04-06 23:14:08 · 3316 阅读 · 1 评论 -
HDFS文件的健康检查
文章来源:HDFS DataNode Scanners and Disk Checker Explained以下只简单翻译部分文字,详情看英文原文。简单的概念一个文件包含多个block,一个block有一个或多个副本。block存储在每台机器的磁盘上,并且包含个blk_xxx.meta信息,meta中包含crc校验信息等。这篇文章为了解答以下问题datanode什么时...原创 2019-04-09 23:35:45 · 1712 阅读 · 1 评论 -
谈Hive的窗口函数
使用场景:有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数如果只使用partition by子句,未指定order by的话,我们的聚合是分组内的聚合. 使用了order by子句,未使用window子句的情况下,默认从分组内起点到当前行做聚合. window子句是对分组内数据更细粒度的做聚合,比如当前行和前面一行做聚合 序列函数,NTILE做分片,row...原创 2019-04-22 10:36:12 · 926 阅读 · 2 评论 -
Scala:Object单例模式分析
Object和Class区别1.object与静态类相似,类名加方法直接调用,不用new对象: Scala比 Java 更面向对象的一个方面是 Scala 没有静态成员。替代品是Scala的单例对象:singleton object。2.Object()调用的是Object里面的apply方法,val a = new ClassA() a() 调用的是Clas...原创 2019-05-02 11:49:34 · 1369 阅读 · 1 评论 -
基于Hadoop CDH进行Spark编译
Spark-2.4.0下载地址:官方地址:https://archive.apache.org/dist/spark/spark-2.4.2/spark-2.4.2.tgz编译Spark源码的文档(参考官方文档)http://spark.apache.org/docs/latest/building-spark.html编译Spark源码的前置要求 软件 ...原创 2019-05-02 16:17:51 · 897 阅读 · 1 评论