
spark学习笔记
文章平均质量分 66
Jiawen_
这个作者很懒,什么都没留下…
展开
-
Spark2.2.1+hadoop2.6.1安装配置成功运行WordCount
hadoop2.6.1安装配置可以参考:分布式环境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功运行例子Scala安装与配置1.下载Scala包2. 新建一个目录,将scala包复制进去使用如下命令解压tar -zxvf scala-2.12.4.tgz3. 配置环境变量vi /etc/profile在文件末尾增加以下内容:export SCALA_HOM...原创 2018-03-28 16:52:10 · 1064 阅读 · 0 评论 -
解决spark+hbase 报错 java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration
spark2.2.1+hbase1.2.6+hadoop2.6.1+jdk1.8.1 提交spark作业时报错如下:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration at fsm.FreqSubGraphMining.init(FreqSubGr...原创 2018-04-04 15:14:54 · 3255 阅读 · 0 评论 -
Spark作业执行之JVM参数设置
spark作业提交后,在driver上运行init()方法时报错:java.lang.OutOfMemoryError: GC overhead limit exceeded报错原因是代码中使用了HashMap而且数据量很大,所以导致GC overhead,调整JVM的启动参数-Xms和-Xmx,这个参数配置Java堆的大小,因为代码运行时hashmap对象存放在堆中,故需调大改参数。配置时需要考...原创 2018-04-28 17:57:38 · 3687 阅读 · 0 评论 -
spark中textfile方法对文件的分片
以数据源为HDFS上的文件为例:JavaRDD data_raw = sc.textfile(path, partitionnum),path指定数据所在位置,partitionnum影响data_raw RDD所具有的partition数以及每个partition大小。首先计算两个值,第一个是与参数partitionnum有关,goalSize = totalSize/partitionnum,...原创 2018-05-28 22:07:10 · 4529 阅读 · 3 评论 -
Spark2.2.1运行在mesos1.7上成功执行wordcount例子
实验环境:共三台机器,Redhat7.1操作系统,其中一台master,两台slave。三台机器上已经安装配置了Spark2.2.1(参考 Spark2.2.1安装配置)。本文主要记录mesos安装配置的过程,以及Spark的wor在wordcount例子运行的过程。一、mesos安装配置尝试了两种安装方式,一种是下载mesos源码包然后自己编译安装(编译过程中有错误,暂时没有解决,虽...原创 2018-12-29 15:59:42 · 374 阅读 · 0 评论