Spark内存迭代计算初探

本文介绍了如何搭建Spark集群,并通过实例展示了Spark的基本用法,包括运行测试示例和使用Spark Shell进行HDFS文件的字符计数操作。同时,文章提到了遇到的问题及解决方法,适合Spark初学者参考。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文转自个人原创blog: http://www.javali.org/document/dive-into-spark-rdd.html

首先安装Spark集群

前置条件,10.0.18.14-16 三台机器分别已安装好hadoop2,spark cluster机器规划 10.0.18.16为master ,10.0.18.14-16三个结点为slave,确保master到slave能免密码ssh畅通
下载scala: http://www.scala-lang.org/download/
下载spark: http://d3kbcqa49mib13.cloudfront.net/spark-1.1.0-bin-cdh4.tgz

解压到master /home/work/hadoop/目录下

把配置好后的scala  spark分别scp到其他的结点,在master上执行

测试:

./bin/run-example SparkPi

集群模式提交

./bin/spark-submit –class org.apache.spark.examples.SparkPi –master local[6] /home/work/hadoop/spark/lib/spark-examples-1.1.0-hadoop2.0.0-mr1-cdh4.2.0.jar 1000

如无问题都会出现类似下方LOG :

15/02/25 14:14:44 INFO SparkContext: Job finished: reduce at SparkPi.scala:35, took 36.014186 s
Pi is roughly 3.14152356

Spark Shell使用:

读取hdfs文件并计算字符个数:

问题解决:

运行如下代码时出现异常

原因在于我安装的是spark1.1.0版,snappy依赖glibgc3.4.9 ;而我本机系统只到3.4.8 ,网上搜索了多种解决方案,其中替换libstdc++.so.6.0.*的方案很坑,我尝试过没奏效
所以有两种办法:
2,安装gcc最新版本     https://gcc.gnu.org/mirrors.html
以集群模式运行spark steaming问题:Initial job has not accepted any resources; check your cluster UI to ensure。。。。
另外还会伴随着 All masters are unresponsive! Giving up. spark-submit    以及  disassociated akka  ….等等错误
网上有说是内存配置问题,实际上是spark-env.sh里的export SPARK_MASTER_IP=10.0.18.16  用IP替换原来的hostname就没问题了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值