Jiawen_-优快云博客

原创 Spark2.2.1运行在mesos1.7上成功执行wordcount例子

实验环境：共三台机器，Redhat7.1操作系统，其中一台master，两台slave。三台机器上已经安装配置了Spark2.2.1（参考 Spark2.2.1安装配置）。本文主要记录mesos安装配置的过程，以及Spark的wor在wordcount例子运行的过程。一、mesos安装配置尝试了两种安装方式，一种是下载mesos源码包然后自己编译安装（编译过程中有错误，暂时没有解决，虽...

2018-12-29 15:59:42 374

原创 spark中textfile方法对文件的分片

以数据源为HDFS上的文件为例：JavaRDD data_raw = sc.textfile(path, partitionnum)，path指定数据所在位置，partitionnum影响data_raw RDD所具有的partition数以及每个partition大小。首先计算两个值，第一个是与参数partitionnum有关，goalSize = totalSize/partitionnum，...

2018-05-28 22:07:10 4529

原创 hbase shell 中list命令报错ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

hbase运行了好多天，今天需要重启一下，于是执行stop-hbase.sh命令，先是报错stopping hbasecat: /tmp/hbase-hadoop-master.pid: No such file or directory，网上找到的解决办法，是修改hbase-env.sh配置文件，在当中设置export HBASE_PID_DIR属性，指定一个文件目录，做了这个操作后，启...

2018-05-10 17:12:52 2356

原创 Spark作业执行之JVM参数设置

spark作业提交后，在driver上运行init()方法时报错：java.lang.OutOfMemoryError: GC overhead limit exceeded报错原因是代码中使用了HashMap而且数据量很大，所以导致GC overhead，调整JVM的启动参数-Xms和-Xmx，这个参数配置Java堆的大小，因为代码运行时hashmap对象存放在堆中，故需调大改参数。配置时需要考...

2018-04-28 17:57:38 3685

原创解决spark+hbase 报错 java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration

spark2.2.1+hbase1.2.6+hadoop2.6.1+jdk1.8.1 提交spark作业时报错如下：Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration at fsm.FreqSubGraphMining.init(FreqSubGr...

2018-04-04 15:14:54 3254

原创 Spark2.2.1+hadoop2.6.1安装配置成功运行WordCount

hadoop2.6.1安装配置可以参考：分布式环境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功运行例子Scala安装与配置1.下载Scala包2. 新建一个目录，将scala包复制进去使用如下命令解压tar -zxvf scala-2.12.4.tgz3. 配置环境变量vi /etc/profile在文件末尾增加以下内容：export SCALA_HOM...

2018-03-28 16:52:10 1064

原创 hadoop之map结果写入hbase数据库，无reduce

算法需要读取整个文件作为一个分片，因此自定义了WholeFileInputFormat类和WholeFileRecordReader类用于实现一个map能够读取一整个文件。 Configuration类实例化的对象和HBaseConfiguration类实例化的对象作用不同，我遇到的问题是：若是只用Configuration类创建的对象conf，则job任务可以提交成功，输入分片也成...

2018-03-19 20:49:55 370

原创 eclipse中远程操作hbase例子，只有map过程没有reduce，map中读取hbase表的所有列

本文例子能够成功运行的前提是，hadoop分布式运行正常，hbase分布式运行正常，eclipse远程操作hadoop和hbase正常。话不多说，撕代码。代码尽量加了详尽的注释，可以成功运行，过程中碰了不少壁，但是遇到问题解决问题才是科研的乐趣所在，O(∩_∩)O哈哈~package hbasetest;import java.io.BufferedWriter;import java.i

2018-01-19 11:33:48 290

原创 eclipse远程连接操作hbase数据库

远程操作只是为了调试测试，学习hbase的一些基本用法，在hadoop集群上运行之前先对程序进行调试测试运行。1.在eclipse中新建一个Java project，并新建一个包hbasetest2.导入所有的jar包。jar包在哪里找：将集群中hbasehome目录下lib目录中的所有文件拷贝到eclipse所在的机器上，导入jar包只需要将所有刚才拷贝的文件都导入即可。下面是成

2018-01-15 10:51:49 2177

原创 hadoop2.6.1+hbase1.4.0完全分布式

写这篇之前已经搭建好一个hadoop集群，集群中有三台服务器，能正常运行。具体见第一篇博文。 1.官网下载与hadoop对应的HBASE，我下载的是Hbase-1.4.0-bin.tar.gz，master节点服务器中新建目录/home/hbase，将下载的文件上传至新建的目录下。 2.进入新建的目录中，解压下载的文件，[root@master hadoop]# cd /hom

2018-01-11 14:48:50 958

翻译好记性不如烂笔头---hadoop分布式文件系统HDFS

何为分布式文件系统，即管理网络中跨多台计算机存储的文件系统称为分布式文件系统，该系统架构于网络之上，引入了网络编程的复杂性，因此分布式文件系统比普通磁盘文件系统更为复杂。 HDFS的设计 HDFS以流式数据访问模式来存储超大文件，超大文件指具有MB、GB、TB级的文件目前也已经有存储PB级数据的hadoop集群了。流式数据访问是指一次写入，多次读取，这是最高效的访问模式，也

2018-01-09 21:17:41 296

原创 hadoop属性的配置调优记录

1.配置网页查看hadoop集群状态在浏览器输入http://ip地址:8088/cluster，即可用网页查看hadoop集群状态，配置好之后查看某个作业时会报错，这是因为没有设置域名重定向，我的电脑是Win7操作系统，设置域名重定向的方法是：在本地计算机的C:\Windows\System32\drivers\etc目录下找到hosts文件，记事本打开hosts文件，在hosts文件的最后，添...

2018-01-03 10:16:33 401

翻译好记性不如烂笔头---hadoop配置调优

以下属性以作业为单位，默认值适合于常规作业。 map端的调优属性属性类型默认值 io.sort.mb int 100 排序map输出时所使用的的内存缓冲区的大小，以兆字节为单位 io.sort.spill.percent float

2018-01-02 11:17:24 292

翻译好记性不如烂笔头---hadoop的shuffle和sort过程

MapReduce确保每个reducer的输入都是按键排序的，系统执行排序的过程称为shuffle。在map端，map函数开始产生输出时，并不是直接写入到磁盘，而是利用缓冲的方式写到内存并出于效率的考虑进行预排序，具体过程：每个map任务都有一个环形内存缓冲区用于存储任务输出，该缓冲区默认大小为100m，可以通过io.sort.mb属性调整该值，一旦缓冲达到阈值io.sort.spill.pe

2017-12-29 10:48:29 661

翻译好记性不如烂笔头---hadoop的作业调度

早期的hadoop 使用非常简单的方法调度用户作业：按照作业的提交顺序，使用FIFO调度算法来运行作业。典型情况下，每个作业都会使用整个集群，但是这样作业需要等待直到轮到自己运行。不久后，增加了设置作业优先级的功能，可以通过设置mapred.job.priority属性或者jobclient的setjobpriority()方法来设置作业的优先级，在这两种方法中可以选择VERY-HIGH,HIGH

2017-12-28 19:41:08 261

翻译好记性不如烂笔头---YARN作业运行机制

YARN将jobtracker的职能进行了划分，划分了两个独立的守护进程：管理集群上资源使用的资源管理器ResourceManager，管理集群上运行任务生命周期的应用管理器ApplicationMaster。基本思路是：AM与RM协商集群的计算资源：容器Container，在容器上运行特定应用程序的进程。容器由集群节点上运行的集群管理器NodeManager监视，以确保应用程序使用的资源不会超过

2017-12-27 21:56:42 274

翻译好记性不如烂笔头---MapReduce1作业运行机制

学习hadoop先从搞懂作业运行机制开始，不看懂运行机制总感觉MapReduce的执行是一件很神秘的事情，现在来解开她的神秘面纱，本想自己看看书就算了，但是记忆力真的是个好东西，然而我却没有。。。只好把看到的内容记下来，也好留下更深的印象。另外，本文内容摘抄自《hadoop权威指南第3版》。jobtracker接收到对其的submitjob()方法的调用后，会把此调用放入一个内部队列中，交由作

2017-12-26 09:32:01 292

原创分布式环境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功运行例子

共三台服务器，安装的Redhat7系统，Redhat7命令与常用的Linux命令稍有不同。第一次写博客，记录过程方便自己的同时方便他人，直接开始正题，环境搭建过程如下。一、安装Redhat7.1系统1.用光盘安装，服务器开启后启动过程中按del键进入BIOS，在boot菜单中将boot priority的CD/ROM选项设置为1st，具体做法是选中CD/ROM选项并按shift+键。 2.安装设置

2017-12-18 14:54:54 717

zjwcsdn123的博客