- 博客(18)
- 收藏
- 关注
原创 Spark2.2.1运行在mesos1.7上成功执行wordcount例子
实验环境:共三台机器,Redhat7.1操作系统,其中一台master,两台slave。三台机器上已经安装配置了Spark2.2.1(参考 Spark2.2.1安装配置)。本文主要记录mesos安装配置的过程,以及Spark的wor在wordcount例子运行的过程。一、mesos安装配置尝试了两种安装方式,一种是下载mesos源码包然后自己编译安装(编译过程中有错误,暂时没有解决,虽...
2018-12-29 15:59:42
374
原创 spark中textfile方法对文件的分片
以数据源为HDFS上的文件为例:JavaRDD data_raw = sc.textfile(path, partitionnum),path指定数据所在位置,partitionnum影响data_raw RDD所具有的partition数以及每个partition大小。首先计算两个值,第一个是与参数partitionnum有关,goalSize = totalSize/partitionnum,...
2018-05-28 22:07:10
4529
原创 hbase shell 中list命令报错ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing
hbase运行了好多天,今天需要重启一下,于是执行stop-hbase.sh命令,先是报错stopping hbasecat: /tmp/hbase-hadoop-master.pid: No such file or directory,网上找到的解决办法,是修改hbase-env.sh配置文件,在当中设置export HBASE_PID_DIR属性,指定一个文件目录,做了这个操作后,启...
2018-05-10 17:12:52
2356
原创 Spark作业执行之JVM参数设置
spark作业提交后,在driver上运行init()方法时报错:java.lang.OutOfMemoryError: GC overhead limit exceeded报错原因是代码中使用了HashMap而且数据量很大,所以导致GC overhead,调整JVM的启动参数-Xms和-Xmx,这个参数配置Java堆的大小,因为代码运行时hashmap对象存放在堆中,故需调大改参数。配置时需要考...
2018-04-28 17:57:38
3685
原创 解决spark+hbase 报错 java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration
spark2.2.1+hbase1.2.6+hadoop2.6.1+jdk1.8.1 提交spark作业时报错如下:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration at fsm.FreqSubGraphMining.init(FreqSubGr...
2018-04-04 15:14:54
3254
原创 Spark2.2.1+hadoop2.6.1安装配置成功运行WordCount
hadoop2.6.1安装配置可以参考:分布式环境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功运行例子Scala安装与配置1.下载Scala包2. 新建一个目录,将scala包复制进去使用如下命令解压tar -zxvf scala-2.12.4.tgz3. 配置环境变量vi /etc/profile在文件末尾增加以下内容:export SCALA_HOM...
2018-03-28 16:52:10
1064
原创 hadoop之map结果写入hbase数据库,无reduce
算法需要读取整个文件作为一个分片,因此自定义了WholeFileInputFormat类和WholeFileRecordReader类用于实现一个map能够读取一整个文件。 Configuration类实例化的对象和HBaseConfiguration类实例化的对象作用不同,我遇到的问题是:若是只用Configuration类创建的对象conf,则job任务可以提交成功,输入分片也成...
2018-03-19 20:49:55
370
原创 eclipse中远程操作hbase例子,只有map过程没有reduce,map中读取hbase表的所有列
本文例子能够成功运行的前提是,hadoop分布式运行正常,hbase分布式运行正常,eclipse远程操作hadoop和hbase正常。话不多说,撕代码。 代码尽量加了详尽的注释,可以成功运行,过程中碰了不少壁,但是遇到问题解决问题才是科研的乐趣所在,O(∩_∩)O哈哈~package hbasetest;import java.io.BufferedWriter;import java.i
2018-01-19 11:33:48
290
原创 eclipse远程连接操作hbase数据库
远程操作只是为了调试测试,学习hbase的一些基本用法,在hadoop集群上运行之前先对程序进行调试测试运行。1.在eclipse中新建一个Java project,并新建一个包hbasetest2.导入所有的jar包。jar包在哪里找:将集群中hbasehome目录下lib目录中的所有文件拷贝到eclipse所在的机器上,导入jar包只需要将所有刚才拷贝的文件都导入即可。下面是成
2018-01-15 10:51:49
2177
原创 hadoop2.6.1+hbase1.4.0完全分布式
写这篇之前已经搭建好一个hadoop集群,集群中有三台服务器,能正常运行。具体见第一篇博文。 1.官网下载与hadoop对应的HBASE,我下载的是Hbase-1.4.0-bin.tar.gz,master节点服务器中新建目录/home/hbase,将下载的文件上传至新建的目录下。 2.进入新建的目录中,解压下载的文件,[root@master hadoop]# cd /hom
2018-01-11 14:48:50
958
翻译 好记性不如烂笔头---hadoop分布式文件系统HDFS
何为分布式文件系统,即管理网络中跨多台计算机存储的文件系统称为分布式文件系统,该系统架构于网络之上,引入了网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂。 HDFS的设计 HDFS以流式数据访问模式来存储超大文件,超大文件指具有MB、GB、TB级的文件目前也已经有存储PB级数据的hadoop集群了。流式数据访问是指一次写入,多次读取,这是最高效的访问模式,也
2018-01-09 21:17:41
296
原创 hadoop属性的配置调优记录
1.配置网页查看hadoop集群状态在浏览器输入http://ip地址:8088/cluster,即可用网页查看hadoop集群状态,配置好之后查看某个作业时会报错,这是因为没有设置域名重定向,我的电脑是Win7操作系统,设置域名重定向的方法是:在本地计算机的C:\Windows\System32\drivers\etc目录下找到hosts文件,记事本打开hosts文件,在hosts文件的最后,添...
2018-01-03 10:16:33
401
翻译 好记性不如烂笔头---hadoop配置调优
以下属性以作业为单位,默认值适合于常规作业。 map端的调优属性属性 类型 默认值 io.sort.mb int 100 排序map输出时所使用的的内存缓冲区的大小,以兆字节为单位 io.sort.spill.percent float
2018-01-02 11:17:24
292
翻译 好记性不如烂笔头---hadoop的shuffle和sort过程
MapReduce确保每个reducer的输入都是按键排序的,系统执行排序的过程称为shuffle。 在map端,map函数开始产生输出时,并不是直接写入到磁盘,而是利用缓冲的方式写到内存并出于效率的考虑进行预排序,具体过程:每个map任务都有一个环形内存缓冲区用于存储任务输出,该缓冲区默认大小为100m,可以通过io.sort.mb属性调整该值,一旦缓冲达到阈值io.sort.spill.pe
2017-12-29 10:48:29
661
翻译 好记性不如烂笔头---hadoop的作业调度
早期的hadoop 使用非常简单的方法调度用户作业:按照作业的提交顺序,使用FIFO调度算法来运行作业。典型情况下,每个作业都会使用整个集群,但是这样作业需要等待直到轮到自己运行。不久后,增加了设置作业优先级的功能,可以通过设置mapred.job.priority属性或者jobclient的setjobpriority()方法来设置作业的优先级,在这两种方法中可以选择VERY-HIGH,HIGH
2017-12-28 19:41:08
261
翻译 好记性不如烂笔头---YARN作业运行机制
YARN将jobtracker的职能进行了划分,划分了两个独立的守护进程:管理集群上资源使用的资源管理器ResourceManager,管理集群上运行任务生命周期的应用管理器ApplicationMaster。基本思路是:AM与RM协商集群的计算资源:容器Container,在容器上运行特定应用程序的进程。容器由集群节点上运行的集群管理器NodeManager监视,以确保应用程序使用的资源不会超过
2017-12-27 21:56:42
274
翻译 好记性不如烂笔头---MapReduce1作业运行机制
学习hadoop先从搞懂作业运行机制开始,不看懂运行机制总感觉MapReduce的执行是一件很神秘的事情,现在来解开她的神秘面纱,本想自己看看书就算了,但是记忆力真的是个好东西,然而我却没有。。。只好把看到的内容记下来,也好留下更深的印象。另外,本文内容摘抄自《hadoop权威指南第3版》。jobtracker接收到对其的submitjob()方法的调用后,会把此调用放入一个内部队列中,交由作
2017-12-26 09:32:01
292
原创 分布式环境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功运行例子
共三台服务器,安装的Redhat7系统,Redhat7命令与常用的Linux命令稍有不同。第一次写博客,记录过程方便自己的同时方便他人,直接开始正题,环境搭建过程如下。一、安装Redhat7.1系统1.用光盘安装,服务器开启后启动过程中按del键进入BIOS,在boot菜单中将boot priority的CD/ROM选项设置为1st,具体做法是选中CD/ROM选项并按shift+键。 2.安装设置
2017-12-18 14:54:54
717
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人