spark问题集锦

最新推荐文章于 2024-04-26 09:51:23 发布

转载最新推荐文章于 2024-04-26 09:51:23 发布 · 2k 阅读

spark 专栏收录该内容

25 篇文章

订阅专栏

本文涵盖Spark集群中常见的问题及其解决策略，包括spark-submit报错处理、Spark on Yarn日志查看、本地文件读取异常、HDFS基本命令、spark读取配置文件方法、依赖第三方jar文件的四种途径，以及kafka-spark streaming整合后集群错误的解决。

spark-submit报错:Application application_1529650293575_0148 finished with failed status

Spark on Yarn 查看日志及状态的命令

关于在Spark集群中读取本地文件抛出找不到文件异常的问题

HDFS基本命令的使用

spark读取外部配置文件之--files

SparkApplication依赖第三方jar文件解决方式

spark-submit报错:Application application_1529650293575_0148 finished with failed status

解决方法：https://blog.youkuaiyun.com/dkl12/article/details/80995083

Spark on Yarn 查看日志及状态的命令

1、查看某个job的日志
yarn logs -applicationId application_1515118561637_0439

2、查看某个job的状态
yarn application -status application_1515118561637_0439

3、kill掉某个job（直接在UI界面或者是终端kill掉任务都是不对的，该任务可能还会继续执行下去，所以要用如下命令才算完全停止该job的执行）
yarn application -kill application_1515118561637_0439
---------------------
作者：yyb_haoren
来源：优快云
原文：https://blog.youkuaiyun.com/qq_31360175/article/details/79003692?utm_source=copy
版权声明：本文为博主原创文章，转载请附上博文链接！

关于在Spark集群中读取本地文件抛出找不到文件异常的问题

一般情况下，我们在本地ide里写好程序，打成jar包上传到集群取运行，有时候需要读取数据文件，这个时候需要注意，如果程序中读取的是本地文件，那么，要在所有的节点都有这个数据文件，只在master中有这个数据文件时执行程序时一直报找不到文件

解决方式1：让每个Worker节点的相应位置都有要读取的数据文件。

解决方式2：直接将数据文件上传到hdfs，达到数据共享。（强烈推荐，比格更高更专业）
---------------------
作者：Lee_Sung
来源：优快云
原文：https://blog.youkuaiyun.com/sunglee_1992/article/details/79127025?utm_source=copy
版权声明：本文为博主原创文章，转载请附上博文链接！

HDFS基本命令的使用

hdfs文件的相关操作主要使用hadoop fs、hadoop dfs、hdfs dfs 命令，以下对最常用的相关命令进行简要说明。
hadoop fs -ls 显示当前目录结构，-ls -R 递归显示目录结构
hadoop fs -mkdir 创建目录
hadoop fs -rm 删除文件，-rm -R 递归删除目录和文件
hadoop fs -put [localsrc] [dst] 从本地加载文件到HDFS
hadoop fs -get [dst] [localsrc] 从HDFS导出文件到本地
hadoop fs - copyFromLocal [localsrc] [dst] 从本地加载文件到HDFS，与put一致
hadoop fs -copyToLocal [dst] [localsrc] 从HDFS导出文件到本地，与get一致
hadoop fs -test -e 检测目录和文件是否存在，存在返回值$?为0，不存在返回1
hadoop fs -text 查看文件内容
hadoop fs -du 统计目录下各文件大小，单位字节。-du -s 汇总目录下文件大小，-du -h 显示单位
hadoop fs -tail 显示文件末尾
hadoop fs -cp [src] [dst] 从源目录复制文件到目标目录
hadoop fs -mv [src] [dst] 从源目录移动文件到目标目录

下面的对上面命令的操作演示

1，hadoop fs -ls 显示当前目录结构，-ls -R 递归显示目录结构

2，hadoop fs -mkdir 创建目录

3，hadoop fs -rm 删除文件，-rm -R 递归删除目录和文件

4，hadoop fs -put [localsrc] [dst] 从本地加载文件到HDFS

5，hadoop fs -get [dst] [localsrc] 从HDFS导出文件到本地

6，hadoop fs - copyFromLocal [localsrc] [dst] 从本地加载文件到HDFS，与put一致

7，hadoop fs -copyToLocal [dst] [localsrc] 从HDFS导出文件到本地，与get一致

8，hadoop fs -test -e 检测目录和文件是否存在，存在返回值$?为0，不存在返回1

9，hadoop fs -text 查看文件内容

10，hadoop fs -du 统计目录下各文件大小，单位字节。-du -s 汇总目录下文件大小，-du -h 显示单位

11，hadoop fs -tail 显示文件末尾

12，hadoop fs -cp [src] [dst] 从源目录复制文件到目标目录

13，hadoop fs -mv [src] [dst] 从源目录移动文件到目标目录
---------------------
作者：IT影风
来源：优快云
原文：https://blog.youkuaiyun.com/afafawfaf/article/details/80254989?utm_source=copy
版权声明：本文为博主原创文章，转载请附上博文链接！

默认情况下，是输出到stdout里的。

方法一：

进入work所在机器的spark安装目录下的work目录，里面有日志输出。

方法二：

进入spark web ui 里

点击stdout就可以查看，如果没有可能在其他work上。

spark读取外部配置文件之--files

来源：https://blog.youkuaiyun.com/u010225915/article/details/79457643

在运行spark程序的时，有时需要读取外部配置参数，比如mysql的host参数、端口号、es主机ip、es端口号等。通过外部文件配置参数也方便程序迁移。下面就来看看如何来实现。

1、首先我们需要一个配置文件：
property.yml

es.nodes: 192.16.8.16
es.port: 9200

2、上传配置文件到某个节点：

3、然后需要在程序里加上如下代码：

Properties props = new Properties();
props.load(new FileInputStream("property.yml"));
String nodes = props.getProperty("es.nodes");
String port = props.getProperty("es.port");

4、通过 Maven打包程序：test.jar

5、上传 test.jar 到集群

6、执行 submit 命令

spark-submit --master yarn-cluster --class com.Test --files /home/lw/property.yml /home/lw/test.jar

--files 参数指定我们需要加载的外部配置文件

SparkApplication依赖第三方jar文件解决方式

置顶 2017年12月05日 11:40:46 泪痕残阅读数：1867 标签： Spark 带三方jar jar依赖更多

个人分类： spark

1.将第三方的jar文件打包到最终形成的应用的jar文件中

使用的场景为：第三方jar文件比较小，可能会进行改动的情况下

2.使用参数 –jars给定驱动

使用场景为：jar文件比较小，依赖于改jar文件的应用比较少
操作命令为：
    bin/spark-shell --jars /opt/cdh-5.3.6/hive/lib/mysql-connector-java-5.1.27-bin.jar,/opt/cdh-5.3.6/hive/lib/derby-10.10.1.1.jar

 用户提交应用的时候使用--jars参数给定，回在driver运行的jvm中启动一个socket进程，提供jar文件的一个下载功能，所以这种方式不要求所有机器上均有第三方的jar文件，只要求jar文件位于使用spark-submit提交应用的机器上有这个jar文件即可

3.使用SPARK_CLASSPATH来设置第三方依赖包

使用场景：jar文件在spark应用中比较多
操作：在spark目录下创建一个external_jars文件夹，然后将jar复制到这个文件夹中，然后配置SPARK_CLASSPATH
     cd /opt/cdh-5.3.6/spark
     mkdir external_jars
     cp /opt/cdh-5.3.6/hive/lib/mysql-connector-java-5.1.27-bin.jar external_jars/
     cp /opt/cdh-5.3.6/hive/lib/derby-10.10.1.1.jar external_jars/
     vim conf/spark-env.sh
   添加内容如下：
SPARK_CLASSPATH=/opt/cdh-5.3.6/spark/external_jars/*

要求spark应用运行的所有机器上均存在你添加的这些jar文件

4.hadoop依赖第三方jar文件解决方式

hadoop依赖jar解决方案和spark解决方案基本类似，
    第一种和spark完全一样
    第二种将jars改为libjars
    第三种修改HADOOP_CLASSPATH

简介
整个项目架构是在CDH中，flume采集数据到kafka，然后sparkstreaming消费（flume1.7版本，kafka0.10版本，spark 2.1版本）。本来local本地模式测试已经没有问题，但是部署到集群上就报错如下：

Exception in thread "streaming-start" java.lang.NoSuchMethodError: org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/util/Collection;)V
        at org.apache.spark.streaming.kafka010.Subscribe.onStart(ConsumerStrategy.scala:84)
        at org.apache.spark.streaming.kafka010.DirectKafkaInputDStream.consumer(DirectKafkaInputDStream.scala:75)
        at org.apache.spark.streaming.kafka010.DirectKafkaInputDStream.start(DirectKafkaInputDStream.scala:243)
        at org.apache.spark.streaming.DStreamGraph$$anonfun$start$5.apply(DStreamGraph.scala:49)
        at org.apache.spark.streaming.DStreamGraph$$anonfun$start$5.apply(DStreamGraph.scala:49)
        at scala.collection.parallel.mutable.ParArray$ParArrayIterator.foreach_quick(ParArray.scala:143)
        at scala.collection.parallel.mutable.ParArray$ParArrayIterator.foreach(ParArray.scala:136)
        at scala.collection.parallel.ParIterableLike$Foreach.leaf(ParIterableLike.scala:972)
        at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply$mcV$sp(Tasks.scala:49)
        at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:48)
        at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:48)
        at scala.collection.parallel.Task$class.tryLeaf(Tasks.scala:51)
        at scala.collection.parallel.ParIterableLike$Foreach.tryLeaf(ParIterableLike.scala:969)
        at scala.collection.parallel.AdaptiveWorkStealingTasks$WrappedTask$class.compute(Tasks.scala:152)
        at scala.collection.parallel.AdaptiveWorkStealingForkJoinTasks$WrappedTask.compute(Tasks.scala:443)
        at scala.concurrent.forkjoin.RecursiveAction.exec(RecursiveAction.java:160)
        at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
        at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
        at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
        at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
17/08/15 20:09:30 ERROR yarn.ApplicationMaster: RECEIVED SIGNAL TERM

原因分析
其实这个在官方文档中有介绍。地址如下：
https://www.cloudera.com/documentation/spark2/latest/topics/spark2_kafka.html#running_jobs
简单说，就是kafka集成spark2，需要在CDH中进行设置。官网介绍了2中方法。这里我采用了第二种，在CDH中进行修改配置的方法。步骤如下：

进入CDH的spark2配置界面，在搜索框中输入SPARK_KAFKA_VERSION，出现如下图，然后选择对应版本，这里我应该选择的是0.10，然后保存配置，重启生效。重新跑sparkstreaming任务，问题解决。

---------------------
作者：疯狂的暴走蜗牛
来源：优快云
原文：https://blog.youkuaiyun.com/u010936936/article/details/77247075?utm_source=copy
版权声明：本文为博主原创文章，转载请附上博文链接！