spark问题集锦

本文涵盖Spark集群中常见的问题及其解决策略,包括spark-submit报错处理、Spark on Yarn日志查看、本地文件读取异常、HDFS基本命令、spark读取配置文件方法、依赖第三方jar文件的四种途径,以及kafka-spark streaming整合后集群错误的解决。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

spark-submit报错:Application application_1529650293575_0148 finished with failed status

Spark on Yarn 查看日志及状态的命令

关于在Spark集群中读取本地文件抛出找不到文件异常的问题

HDFS基本命令的使用

spark读取外部配置文件之--files

SparkApplication依赖第三方jar文件解决方式

kafka sparkstreaming整合后集群报错org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/uti


 

spark-submit报错:Application application_1529650293575_0148 finished with failed status

解决方法:https://blog.youkuaiyun.com/dkl12/article/details/80995083

 

 

Spark on Yarn 查看日志及状态的命令

 

1、查看某个job的日志
yarn logs -applicationId application_1515118561637_0439


2、查看某个job的状态
yarn application -status application_1515118561637_0439

3、kill掉某个job(直接在UI界面或者是终端kill掉任务都是不对的,该任务可能还会继续执行下去,所以要用如下命令才算完全停止该job的执行)
yarn application -kill application_1515118561637_0439
--------------------- 
作者:yyb_haoren 
来源:优快云 
原文:https://blog.youkuaiyun.com/qq_31360175/article/details/79003692?utm_source=copy 
版权声明:本文为博主原创文章,转载请附上博文链接!

 

 

关于在Spark集群中读取本地文件抛出找不到文件异常的问题


一般情况下,我们在本地ide里写好程序,打成jar包上传到集群取运行,有时候需要读取数据文件,这个时候需要注意,如果程序中读取的是本地文件,那么,要在所有的节点都有这个数据文件,只在master中有这个数据文件时执行程序时一直报找不到文件

解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。

解决方式2:直接将数据文件上传到hdfs,达到数据共享。(强烈推荐,比格更高更专业)
--------------------- 
作者:Lee_Sung 
来源:优快云 
原文:https://blog.youkuaiyun.com/sunglee_1992/article/details/79127025?utm_source=copy 
版权声明:本文为博主原创文章,转载请附上博文链接!

HDFS基本命令的使用

hdfs文件的相关操作主要使用hadoop fs、hadoop dfs、hdfs dfs 命令,以下对最常用的相关命令进行简要说明。
hadoop fs -ls  显示当前目录结构,-ls -R 递归显示目录结构
hadoop fs -mkdir  创建目录
hadoop fs -rm   删除文件,-rm -R 递归删除目录和文件
hadoop fs -put  [localsrc] [dst]  从本地加载文件到HDFS
hadoop fs -get  [dst] [localsrc]  从HDFS导出文件到本地
hadoop fs - copyFromLocal [localsrc] [dst]  从本地加载文件到HDFS,与put一致
hadoop fs -copyToLocal [dst] [localsrc]  从HDFS导出文件到本地,与get一致
hadoop fs -test -e  检测目录和文件是否存在,存在返回值$?为0,不存在返回1
hadoop fs -text  查看文件内容
hadoop fs -du  统计目录下各文件大小,单位字节。-du -s 汇总目录下文件大小,-du -h 显示单位
hadoop fs -tail  显示文件末尾
hadoop fs -cp [src] [dst] 从源目录复制文件到目标目录
hadoop fs -mv [src] [dst] 从源目录移动文件到目标目录

下面的对上面命令的操作演示

1,hadoop fs -ls  显示当前目录结构,-ls -R 递归显示目录结构

2,hadoop fs -mkdir  创建目录

3,hadoop fs -rm   删除文件,-rm -R 递归删除目录和文件

4,hadoop fs -put  [localsrc] [dst]  从本地加载文件到HDFS

5,hadoop fs -get  [dst] [localsrc]  从HDFS导出文件到本地

6,hadoop fs - copyFromLocal [localsrc] [dst]  从本地加载文件到HDFS,与put一致

7,hadoop fs -copyToLocal [dst] [localsrc]  从HDFS导出文件到本地,与get一致

8,hadoop fs -test -e  检测目录和文件是否存在,存在返回值$?为0,不存在返回1

9,hadoop fs -text  查看文件内容

10,hadoop fs -du  统计目录下各文件大小,单位字节。-du -s 汇总目录下文件大小,-du -h 显示单位

11,hadoop fs -tail  显示文件末尾

12,hadoop fs -cp [src] [dst] 从源目录复制文件到目标目录

13,hadoop fs -mv [src] [dst] 从源目录移动文件到目标目录
--------------------- 
作者:IT影风 
来源:优快云 
原文:https://blog.youkuaiyun.com/afafawfaf/article/details/80254989?utm_source=copy 
版权声明:本文为博主原创文章,转载请附上博文链接!

 

默认情况下,是输出到stdout里的。

 

方法一:

进入work所在机器的spark安装目录下的work目录,里面有日志输出。

 

 

方法二:

进入spark web ui 里

 

 

点击stdout就可以查看,如果没有可能在其他work上。

 

l

spark读取外部配置文件之--files

来源:https://blog.youkuaiyun.com/u010225915/article/details/79457643

在运行spark程序的时,有时需要读取外部配置参数,比如mysql的host参数、端口号、es主机ip、es端口号等。通过外部文件配置参数也方便程序迁移。下面就来看看如何来实现。

1、首先我们需要一个配置文件:
property.yml

 
  1. es.nodes: 192.16.8.16

  2.  
  3. es.port: 9200

2、上传配置文件到某个节点:

3、然后需要在程序里加上如下代码:

Properties props = new Properties();
props.load(new FileInputStream("property.yml"));
String nodes = props.getProperty("es.nodes");
String port = props.getProperty("es.port");

4、通过 Maven打包程序:test.jar

5、上传 test.jar 到集群

6、执行 submit 命令

spark-submit --master yarn-cluster --class com.Test --files /home/lw/property.yml /home/lw/test.jar

--files 参数指定我们需要加载的外部配置文件

 

 

SparkApplication依赖第三方jar文件解决方式

置顶 2017年12月05日 11:40:46 泪痕残 阅读数:1867 标签: Spark带三方jarjar依赖 更多

个人分类: spark

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/u012893747/article/details/78718053

1.将第三方的jar文件打包到最终形成的应用的jar文件中

使用的场景为:第三方jar文件比较小,可能会进行改动的情况下
  •  

2.使用参数 –jars给定驱动

使用场景为:jar文件比较小,依赖于改jar文件的应用比较少
操作命令为:
    bin/spark-shell --jars /opt/cdh-5.3.6/hive/lib/mysql-connector-java-5.1.27-bin.jar,/opt/cdh-5.3.6/hive/lib/derby-10.10.1.1.jar

 用户提交应用的时候使用--jars参数给定,回在driver运行的jvm中启动一个socket进程,提供jar文件的一个下载功能,所以这种方式不要求所有机器上均有第三方的jar文件,只要求jar文件位于使用spark-submit提交应用的机器上有这个jar文件即可

3.使用SPARK_CLASSPATH来设置第三方依赖包

使用场景:jar文件在spark应用中比较多
操作:在spark目录下创建一个external_jars文件夹,然后将jar复制到这个文件夹中,然后配置SPARK_CLASSPATH
     cd /opt/cdh-5.3.6/spark
     mkdir external_jars
     cp /opt/cdh-5.3.6/hive/lib/mysql-connector-java-5.1.27-bin.jar external_jars/
     cp /opt/cdh-5.3.6/hive/lib/derby-10.10.1.1.jar external_jars/
     vim conf/spark-env.sh
   添加内容如下:
SPARK_CLASSPATH=/opt/cdh-5.3.6/spark/external_jars/*

要求spark应用运行的所有机器上均存在你添加的这些jar文件

4.hadoop依赖第三方jar文件解决方式

hadoop依赖jar解决方案和spark解决方案基本类似,
    第一种和spark完全一样
    第二种将jars改为libjars
    第三种修改HADOOP_CLASSPATH

kafka sparkstreaming整合后集群报错org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/uti

简介
     整个项目架构是在CDH中,flume采集数据到kafka,然后sparkstreaming消费(flume1.7版本,kafka0.10版本,spark 2.1版本)。本来local本地模式测试已经没有问题,但是部署到集群上就报错如下:

Exception in thread "streaming-start" java.lang.NoSuchMethodError: org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/util/Collection;)V
        at org.apache.spark.streaming.kafka010.Subscribe.onStart(ConsumerStrategy.scala:84)
        at org.apache.spark.streaming.kafka010.DirectKafkaInputDStream.consumer(DirectKafkaInputDStream.scala:75)
        at org.apache.spark.streaming.kafka010.DirectKafkaInputDStream.start(DirectKafkaInputDStream.scala:243)
        at org.apache.spark.streaming.DStreamGraph$$anonfun$start$5.apply(DStreamGraph.scala:49)
        at org.apache.spark.streaming.DStreamGraph$$anonfun$start$5.apply(DStreamGraph.scala:49)
        at scala.collection.parallel.mutable.ParArray$ParArrayIterator.foreach_quick(ParArray.scala:143)
        at scala.collection.parallel.mutable.ParArray$ParArrayIterator.foreach(ParArray.scala:136)
        at scala.collection.parallel.ParIterableLike$Foreach.leaf(ParIterableLike.scala:972)
        at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply$mcV$sp(Tasks.scala:49)
        at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:48)
        at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:48)
        at scala.collection.parallel.Task$class.tryLeaf(Tasks.scala:51)
        at scala.collection.parallel.ParIterableLike$Foreach.tryLeaf(ParIterableLike.scala:969)
        at scala.collection.parallel.AdaptiveWorkStealingTasks$WrappedTask$class.compute(Tasks.scala:152)
        at scala.collection.parallel.AdaptiveWorkStealingForkJoinTasks$WrappedTask.compute(Tasks.scala:443)
        at scala.concurrent.forkjoin.RecursiveAction.exec(RecursiveAction.java:160)
        at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
        at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
        at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
        at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
17/08/15 20:09:30 ERROR yarn.ApplicationMaster: RECEIVED SIGNAL TERM


原因分析
      其实这个在官方文档中有介绍。地址如下:
https://www.cloudera.com/documentation/spark2/latest/topics/spark2_kafka.html#running_jobs
简单说,就是kafka集成spark2,需要在CDH中进行设置。官网介绍了2中方法。这里我采用了第二种,在CDH中进行修改配置的方法。步骤如下:

进入CDH的spark2配置界面,在搜索框中输入SPARK_KAFKA_VERSION,出现如下图,然后选择对应版本,这里我应该选择的是0.10,然后保存配置,重启生效。重新跑sparkstreaming任务,问题解决。

--------------------- 
作者:疯狂的暴走蜗牛 
来源:优快云 
原文:https://blog.youkuaiyun.com/u010936936/article/details/77247075?utm_source=copy 
版权声明:本文为博主原创文章,转载请附上博文链接!

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值