- 博客(15)
- 资源 (2)
- 收藏
- 关注

原创 CDH添加hue服务时数据库连接失败Unable to verify database connection.
报错信息如下:Unexpected error.Unable to verify database connection.查看cm-5.15.0/log/cloudera-scm-server/cloudera-scm-server.log日志文件,可知报错原因是因为缺少libmysqlclient.so.20文件。解决方法:从mysql安装目录MySQL/lib/x86_64-lin...
2019-03-13 14:46:40
1853
原创 操作系统之存储管理详细知识点
存储管理所研究的内容包括三个方面:取(Fetch)、放(Placement)、替换(Replacement)。“取”是研究该将哪个进程(或进程的某些部分)从辅存调入主存。调入进程占用主存或有资格占用主存是中级调度的工作。在主存资源有限的情况下,也可以调入进程的某些部分占用主存,它一般有请调(Demand Fetch)和预调(Anticipatory Fetch)之分。前者按照进程运行需要...
2020-03-08 13:11:40
2646
原创 Spark源码修改编译部署
源码修改:利用IDEA修改源码、编译源码所在模块。找到修改的源码生成的class文件在workspace中的位置。将修改源码对应的模块从已安装好Spark集群的服务器上download下来。用好压打开步骤3下载的jar包,将步骤2找到的class文件替换步骤3的jar包中的对应class文件。再将修改的jar包上传回服务器。源码部署:将上述步骤生成的修改后的jar包上传至服务器,替换...
2020-02-29 21:22:03
846
原创 Spark源码2.4.2之超详细的Task提交的流程分析
当Job提交之后,就会生成DAG图,根据RDD的Dependency进行Stage的划分。stage分为ShuffleMapStage和ResultStage两种类型,根据stage类型生成对应的task,分别是ShuffleMapTask、ResultTask。我们从Stage的提交开始分析:1. 首先对判断该Stage的父Stage是否已经提交执行,若没有则递归提交其父Stage,否则调用s...
2019-12-20 21:43:45
346
原创 HiBench7部署过程遇到的问题汇总
1. Get workers from yarn-site.xml page failed解决方法:在HiBench安装目录conf目录下修改hibench.conf文件,要配置hibench.masters.hostnames 和hibench.slaves.hostnames两项。配置为集群的master节点和slaves节点对应的主机名。hibench.masters.hostna...
2019-12-07 14:37:05
1315
原创 HiBench7的详细部署运行步骤
以下操作仅需要在集群的一个节点执行即可。1. 下载HiBench源码执行以下指令:wget https://codeload.github.com/Intel-bigdata/HiBench/zip/master如果wget下载不下来,可先在自己电脑下载下载再上传至服务器。下载地址:https://github.com/Intel-bigdata/HiBench2. 利用maven...
2019-12-07 14:14:58
2261
原创 基于ubuntu 16.04搭建CDH环境
准备过程1. 环境:Ubuntu16.04 desktop x 5 台ip和主机名:192.168.1.83 master192.168.1.81 slave1192.168.1.82 slave2192.168.1.84 slave3192.168.1.88 slave4搭建过程使用普通用户hadoop(若为root用户,所有指令去掉sudo即可)。2. 要下载的安装包:下...
2019-11-02 23:10:59
1020
原创 IDEA搭建Flink源码1.9.0环境缺少Java类问题解决方法
关于avro有关的包的问题:可以看到在某些源文件中找不到这些类,但是源码有关的依赖是下载完全了的。这是因为这些类是由Avro框架生成的,利用Avro框架可以根据.avsc文件生成对应的Java文件。例如上述代码缺少的类就是由如下如下文件生成的:解决方法:用maven编译一下相应的模块就会生成这些文件。然后代码飘红的问题就可以解决了。如果不是由于这个原因产生的文件找不到的话,就是因为网...
2019-10-15 16:51:34
1008
原创 Spark Shuffle写与读过程中的数据跟踪--MapOutputTracker
这一篇主要是讲解下游Stage如何得到上游Stage输出的数据,对Shuffle过程的数据进行追踪,这主要是利用一个组件——MapOutputTracker。上游Stage将信息写入MapOutputTracker(每个上游Task会产生一个MapStatus记录各分区数据在文件中的偏移等信息,所以这篇文章就是指如何将MapStatus加入到MapOutputTracker中),下游Stage通过...
2019-07-03 10:43:06
623
原创 Spark源码2.4.2之Shuffle读过程
在前面我们分析了shuffle在map阶段的写过程,这一篇我们继续分析读过程。shuffle的读过程发生的宽依赖的RDD(如ShuffledRDD)的compute方法被调用的时候。所以先来看ShuffledRDD的compute()方法的源码:// ShuffledRDD.scalaoverride def compute(split: Partition, context: TaskCon...
2019-07-01 15:35:39
563
原创 Hbase集群出现的错误及解决方案
1 启动hbase报如下错误:解决方法:HBase的配置文件 hbase-env.sh中将以下配置注释掉即可#export HBASE_MASTER_OPTS=“KaTeX parse error: Expected 'EOF', got '#' at position 59: …PermSize=128m"#̲export HBASE_RE…HBASE_REGIONSERVER_OP...
2019-07-01 10:41:55
641
原创 CDH5.15配置hue监控hbase,hdfs,yarn等组件
Hbase确认hbase-site.xml配置文件中的如下内容被勾选注意该功能需要hbase环境中有Thrift Server服务。在 HBase Thrift Server 属性中选择服务器以使用 Hue HBase Browser 应用程序。在core-site.xml 中 对HBase 授权代理<!--core-site.xml--><property...
2019-07-01 09:52:20
805
2
原创 Spark源码2.4.2之Shuffle写过程
ShuffleManager介绍spark之所以比mapReduce的性能高其中一个主要的原因就是对shuffle过程的优化,一方面spark的shuffle过程更好地利用内存(执行内存),另一方面对于shuffle过程中溢写的磁盘文件归并排序和引入索引文件。当然,spark性能高的另一个主要原因还有对计算链的优化,把多步map类型的计算chain在一起,大大减少中间过程的落盘,这也是spark...
2019-07-01 09:05:17
863
1
原创 基于Ubuntu16.04搭建的CDH HUE的Load Balancer服务启动失败
服务启动失败:解决方法: 安装LoadBalancer服务的机器要安装httpd。安装httpd服务步骤:下载httpd压缩包,并上传至安装LoadBalancer服务的主机的~/install目录下。下载地址: http://httpd.apache.org/download.cgi 。本次下载httpd-2.4.38.tar.gz。解压编译cd ~/install...
2019-03-13 12:40:07
415
原创 c++ 集合常用函数及集合排序
Mapmap的内部结构是红黑数,所以STL中map默认是按key排序的。初始化 map<k, v> map; // 定义了一个名为map的空的map对象; map<k, v> map(m2); // 创建了m2的副本map; map<k, v> m(b, e); // 创建了map对象ma...
2019-02-27 16:41:52
3466
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人