klinh-优快云博客

原创 CDH添加hue服务时数据库连接失败Unable to verify database connection.

报错信息如下：Unexpected error.Unable to verify database connection.查看cm-5.15.0/log/cloudera-scm-server/cloudera-scm-server.log日志文件，可知报错原因是因为缺少libmysqlclient.so.20文件。解决方法：从mysql安装目录MySQL/lib/x86_64-lin...

2019-03-13 14:46:40 1853

原创操作系统之存储管理详细知识点

存储管理所研究的内容包括三个方面：取（Fetch）、放（Placement）、替换（Replacement）。“取”是研究该将哪个进程（或进程的某些部分）从辅存调入主存。调入进程占用主存或有资格占用主存是中级调度的工作。在主存资源有限的情况下，也可以调入进程的某些部分占用主存，它一般有请调（Demand Fetch）和预调（Anticipatory Fetch）之分。前者按照进程运行需要...

2020-03-08 13:11:40 2646

原创 Spark源码修改编译部署

源码修改：利用IDEA修改源码、编译源码所在模块。找到修改的源码生成的class文件在workspace中的位置。将修改源码对应的模块从已安装好Spark集群的服务器上download下来。用好压打开步骤3下载的jar包，将步骤2找到的class文件替换步骤3的jar包中的对应class文件。再将修改的jar包上传回服务器。源码部署：将上述步骤生成的修改后的jar包上传至服务器，替换...

2020-02-29 21:22:03 846

原创 Spark源码2.4.2之超详细的Task提交的流程分析

当Job提交之后，就会生成DAG图，根据RDD的Dependency进行Stage的划分。stage分为ShuffleMapStage和ResultStage两种类型，根据stage类型生成对应的task，分别是ShuffleMapTask、ResultTask。我们从Stage的提交开始分析：1. 首先对判断该Stage的父Stage是否已经提交执行，若没有则递归提交其父Stage，否则调用s...

2019-12-20 21:43:45 346

原创 HiBench7部署过程遇到的问题汇总

1. Get workers from yarn-site.xml page failed解决方法：在HiBench安装目录conf目录下修改hibench.conf文件，要配置hibench.masters.hostnames 和hibench.slaves.hostnames两项。配置为集群的master节点和slaves节点对应的主机名。hibench.masters.hostna...

2019-12-07 14:37:05 1315

原创 HiBench7的详细部署运行步骤

以下操作仅需要在集群的一个节点执行即可。1. 下载HiBench源码执行以下指令：wget https://codeload.github.com/Intel-bigdata/HiBench/zip/master如果wget下载不下来，可先在自己电脑下载下载再上传至服务器。下载地址：https://github.com/Intel-bigdata/HiBench2. 利用maven...

2019-12-07 14:14:58 2261

原创基于ubuntu 16.04搭建CDH环境

准备过程1. 环境：Ubuntu16.04 desktop x 5 台ip和主机名：192.168.1.83 master192.168.1.81 slave1192.168.1.82 slave2192.168.1.84 slave3192.168.1.88 slave4搭建过程使用普通用户hadoop（若为root用户，所有指令去掉sudo即可）。2. 要下载的安装包：下...

2019-11-02 23:10:59 1020

原创 IDEA搭建Flink源码1.9.0环境缺少Java类问题解决方法

关于avro有关的包的问题：可以看到在某些源文件中找不到这些类，但是源码有关的依赖是下载完全了的。这是因为这些类是由Avro框架生成的，利用Avro框架可以根据.avsc文件生成对应的Java文件。例如上述代码缺少的类就是由如下如下文件生成的：解决方法：用maven编译一下相应的模块就会生成这些文件。然后代码飘红的问题就可以解决了。如果不是由于这个原因产生的文件找不到的话，就是因为网...

2019-10-15 16:51:34 1008

原创 Spark Shuffle写与读过程中的数据跟踪--MapOutputTracker

这一篇主要是讲解下游Stage如何得到上游Stage输出的数据，对Shuffle过程的数据进行追踪，这主要是利用一个组件——MapOutputTracker。上游Stage将信息写入MapOutputTracker（每个上游Task会产生一个MapStatus记录各分区数据在文件中的偏移等信息，所以这篇文章就是指如何将MapStatus加入到MapOutputTracker中），下游Stage通过...

2019-07-03 10:43:06 623

原创 Spark源码2.4.2之Shuffle读过程

在前面我们分析了shuffle在map阶段的写过程，这一篇我们继续分析读过程。shuffle的读过程发生的宽依赖的RDD（如ShuffledRDD）的compute方法被调用的时候。所以先来看ShuffledRDD的compute()方法的源码：// ShuffledRDD.scalaoverride def compute(split: Partition, context: TaskCon...

2019-07-01 15:35:39 563

原创 Hbase集群出现的错误及解决方案

1 启动hbase报如下错误：解决方法：HBase的配置文件 hbase-env.sh中将以下配置注释掉即可#export HBASE_MASTER_OPTS=“KaTeX parse error: Expected 'EOF', got '#' at position 59: …PermSize=128m"#̲export HBASE_RE…HBASE_REGIONSERVER_OP...

2019-07-01 10:41:55 641

原创 CDH5.15配置hue监控hbase，hdfs，yarn等组件

Hbase确认hbase-site.xml配置文件中的如下内容被勾选注意该功能需要hbase环境中有Thrift Server服务。在 HBase Thrift Server 属性中选择服务器以使用 Hue HBase Browser 应用程序。在core-site.xml 中对HBase 授权代理<property...

2019-07-01 09:52:20 805 2

原创 Spark源码2.4.2之Shuffle写过程

ShuffleManager介绍spark之所以比mapReduce的性能高其中一个主要的原因就是对shuffle过程的优化，一方面spark的shuffle过程更好地利用内存（执行内存），另一方面对于shuffle过程中溢写的磁盘文件归并排序和引入索引文件。当然，spark性能高的另一个主要原因还有对计算链的优化，把多步map类型的计算chain在一起，大大减少中间过程的落盘，这也是spark...

2019-07-01 09:05:17 863 1

原创基于Ubuntu16.04搭建的CDH HUE的Load Balancer服务启动失败

服务启动失败：解决方法: 安装LoadBalancer服务的机器要安装httpd。安装httpd服务步骤：下载httpd压缩包，并上传至安装LoadBalancer服务的主机的~/install目录下。下载地址： http://httpd.apache.org/download.cgi 。本次下载httpd-2.4.38.tar.gz。解压编译cd ~/install...

2019-03-13 12:40:07 415

原创 c++ 集合常用函数及集合排序

Mapmap的内部结构是红黑数，所以STL中map默认是按key排序的。初始化 map<k, v> map; // 定义了一个名为map的空的map对象; map<k, v> map(m2); // 创建了m2的副本map; map<k, v> m(b, e); // 创建了map对象ma...

2019-02-27 16:41:52 3466 2

hkl15111093042的博客