
大数据
会飞的犬良
这个作者很懒,什么都没留下…
展开
-
确定hive的map和reduce的task的数量
Hive的底层查询原理,也是讲sql语句转化为map-reduce进行查询和计算的,所以设置正确的map和reduce的task的数量对查询效率有很重要的影响。1. 设置mapper的task数量 在分布式计算系统中,决定map数量的一个因素就是原始数据,在不加干预的情况下,原始数据有多少个块,就可能有多少个起始的task,因为每个task对应要去读取一个块的...原创 2020-04-28 11:42:32 · 1758 阅读 · 0 评论 -
Spark源码-sample计算流程分析
1.参数说明 Sample构造函数有三个参数,每个参数的含义如下: withReplacement:元素可以多次抽样(在抽样时替换) fraction:期望样本的大小作为RDD大小的一部分, 当withReplacement=false时:选择每个元素的概率;分数一定是[0,1] ; 当 withReplacement=true时:选择每个元素的期望次数; 分数...原创 2020-04-21 15:28:33 · 918 阅读 · 0 评论 -
Spark计算流程分析(map-reduce)过程
本文只是结合源码对spark的map和reduce过程做简单的总结,不是特别深入。主要是《深入理解Spark__核心思想与源码分析》一书中的内容和自己的一些理解。1.Shuffle 不管是hadoop的MapReduce还是spark的map-reduce过程,核心过程都叫做shuffle,MapReduce的shuffle过程,要对每个分区的数据进行排序,然后merge,完...原创 2020-04-20 22:02:52 · 2821 阅读 · 2 评论 -
Spark源码分析-SortByKey源码
简单介绍SortByKey对<key, value>数据进行按照key进行排序,怎么个排法,我么先看一下spark源码中的一些注释: 两段注释的基本意思差不多:通过RDD的key进行排序,每一个分区包括在一个范围内排好序的元素,然后返回一个有序的list集合,或者按照该key以part-x的形式保存在文件系统上。大概的意思就是这样,就是按照partitio...原创 2020-04-19 22:19:41 · 715 阅读 · 1 评论 -
Spark源码分析-topN源码
介绍TopN算子是取RDD的前N个元素。取TopN元素,我们就一定要对其进行严格排序吗?非也,也正是如此,加大了此算子的效率。源码理解def top(num: Int): JList[T] = {val comp = com.google.common.collect.Ordering.natural().asInstanceOf[Comparator[T]]top(nu...原创 2020-04-19 12:01:27 · 295 阅读 · 0 评论 -
Spark数据倾斜的原因以及解决方案
转自:https://www.cnblogs.com/xiaodf/p/6055803.html数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别ta...转载 2020-03-03 11:52:57 · 531 阅读 · 1 评论 -
Ambari_主机更换硬盘恢复组件
1.问题描述最近一台线上的主机硬盘完全坏掉,也就是说机器需要重新装了,这台主机安装的还有standby name节点,以及其他的组件。主机挂掉之后,Ambari上该主机对应的组件状态全部都为未知状态,所以也无法对其操作,最后能作的就是在该主机重新安装完系统之后,把原来安装的组件都恢复过来。2.问题解决 (1)主机重装系统之后,基本准备工作要做好,jdk、免密登陆、防火墙、...原创 2019-11-25 11:46:31 · 539 阅读 · 1 评论 -
HDFS主备切换,导致HBase和Spark 无法访问Standby的namenode,而不可用
HDFS主备切换,导致HBase挂掉,并且Spark出现了Operation category READ is not supported in state standby的问题。这是因为在hadoop的HA模式下,只有active状态的namenode才可以作文hdfs的文件访问入口的。所以这里需要修改HBase和Spark的配置。HBase修改hbase-site.xml的hbase.ro...原创 2019-03-21 10:39:56 · 1275 阅读 · 1 评论 -
Spark为什么比Hadoop快
1.前言大数据工程师都喜欢拿Spark和Hadoop进行对比。一般的理解就是:Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。果真如此吗?事实上,不光Spark是内存计算,Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据通信问题:Spark多个任务之间数据通信是基于内存,而Hadoop是基于磁盘。Spark...转载 2019-01-03 15:07:58 · 476 阅读 · 0 评论 -
Spark和hbase集成遇到的一些问题
1.Spark计算都转移到了一个节点上,即只有一个节点在计算。 搭建好的spark集群,进行计算的时候发现,所有的slave节点上的task生成后,快速退出,并且生成好多task。查看spark ui上发现,只有主节点上有正常task运行,其他的slave节点都没有分到相应的task。如下所示:主要是找到错误日志,主节点上的work目录下没有错误输出,然后找到slave节点下的wo...原创 2018-10-18 19:17:45 · 1063 阅读 · 0 评论 -
hbase和hadoop版本搭配
搭建hbase的时候,网上有好多教程说hbase用到的lib下的hadoop核心包,要和你集群用到的hadoop版本一致,我觉得这个没有必要,我试了一下,反而hbase无法启动。关于这个问题,最好的解决方案在hbase官方文档上,上面有hbase和hadoop嗯嗯版本搭配信息,只要上面说是版本支持的,就可放心使用:顺便附上一张图。...原创 2018-06-05 16:23:31 · 1746 阅读 · 0 评论 -
部署hadoop集群ha模式常见的问题,以及解决方案
1. 集群中的某个datanode无法启动。原因:可能是该节点的clusterId和master上的不一样了,修改clusterId和master一样的就行了。如下:在core-site.xml中找到配置的hadoop.tmp.dir,往下找/dfs/name/current下有个VERSION文件,打开如下:对比master上的clusterID,修改为mater上的ID就行了。2. ...原创 2018-05-10 17:11:30 · 1887 阅读 · 1 评论