spark使用过程中的问题

make_APP

于 2016-01-26 11:10:37 发布

阅读量950

点赞数

CC 4.0 BY-SA版权

分类专栏：分布式系统_spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/make_APP/article/details/50585310

分布式系统_spark 专栏收录该内容

13 篇文章

订阅专栏

在使用Spark过程中遇到两个主要问题：1) 创建Spark Context失败，可能原因包括HDFS未启动、环境变量配置不正确等。2) sparkDriver无法绑定端口，经过排查发现可能是IP变动导致。解决方案包括设置SPARK_LOCAL_IP环境变量并检查Hadoop是否启动。重启Hadoop和Spark服务后问题解决。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我的环境：

scala2.10.6

Hadoop 2.6.2

jdk-8u66-linux-x64

spark1.5.2

一台master，两台slave

问题1、

scala> val textFile =sc.textFile("README.md")

报错信息为： error: not found: value sc

sc为spark context，创建rdd时候就有的了，很明显创建失败

可能原因：

hdfs失败，未启动hadoop；加载spark-shell就失败；权限不对；环境变量没配好==》路径不对

附注：

Spark context available as sc.

Spark context的缩写为Sc。

问题2、

spark.sparkcontext:error initializiing

报错总信息为：sparkDriver could not bind on port 0

具体摘要为：

starting remoting

java.net.BindException:Failed to bind to: /10.1.4.221:0:shutting down Netty transport

Service 'sparkDriver' failed after 16 retries!

Master上报错，slave2上未报这个错误

Slave2上的部分信息为：

Successfully started service ‘sparkDriver’ on port 42887

Remoting started listening on addresses: [akka.tcp://sparkDriver@10.1.4.237:42887]

*上面ip地址为ip地址

都报的错误为

error not found: value sqlContext

解决办法：

export SPARK_LOCAL_IP=127.0.0.1

注意export 之后，仅对当前窗口有效，仅仅是临时创建环境变量，最好加到$SPARK_HOME/conf/spark-env.sh中

猜测报错原因：前几天网线动了，所以ip变了？

解决上述问题的参考链接：

http://stackoverflow.com/questions/30085779/apache-spark-error-while-start

然后只报error not found: value sql Context的错误了

google后的相关信息为：

Looks like your Spark config may be trying to log to an HDFS path. Can you review yourconfig settings?

While reading a local file which is not in HDFS throughspark shell, does the HDFS need to be up and running ?

The data may be spilled off to disk hence HDFS is anecessity for Spark.

You can run Spark on a single machine & not use HDFS but in distributed mode HDFS will be required.

所以问题原因应该是：

这个应该是没有启动hadoop

**突然忘了断电后重启过了

于是

bin/hadoopnamenode –format

sbin/start-dfs.sh

sbin/start-yarn.sh

然后再启动spark

进入spark目录，sbin/start-all.sh

然后再bin/spark-shell即成功

博客等级

码龄11年

46
原创

13
点赞

21
收藏

10
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: linux环境变量的设置

下一篇：: 对spark中RDD的理解

最新评论

pycharm
朱竹清小姐姐: 谢谢小哥哥，❤。
树莓派实战4：配置一小时发送一次邮件
redflash: 谢谢，很详细!
树莓派实战3：配置开机自启动
make_APP: 这句话 “ifconfig | grep 'Bcast' | cut -d B -f 1 >> /home/pi/Desktop/ip.log” 可以获得ip地址，通常我们开关机的时候ip才会变化，把他放入rc.local即可，linux在init的时候会启动rc.local的服务。但有些地方是不间断reset你的ip，所以我在实战4里面加到了crontab里面，像这样 */60 * * * * sh /home/pi/Desktop/check.sh。在check.sh中，不断更新ip地址。你输入crontab -e 后有反应吗？他会让你选择一个编辑器来打开，打开的文件有很多#，你在最后一行填写定时任务即可。
树莓派实战3：配置开机自启动
cyang812: 你好，看了你写的教程，已成功将ip发送到自己的邮箱。可是我想问的是，每一次执行mail.py程序，只是讲之前桌面上生成的Ip.log文件发送出去，并不是此次开机后分到的ip发送出去锕。另外开机自启这个功能，我也没有实现，cortab -e 这条命令无法执行，或者说是无法修改该文件的内容，获取权限后也不行。
树莓派实战3：配置开机自启动
cyang812: 你好，看了你写的教程，已成功将ip发送到自己的邮箱。可是我想问的是，每一次执行mail.py程序，只是讲之前桌面上生成的Ip.log文件发送出去，并不是此次开机后分到的ip发送出去锕。另外开机自启这个功能，我也没有实现，cortab -e 这条命令无法执行，或者说是无法修改该文件的内容，获取权限后也不行。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。