目录
spark-submit报错:Application application_1529650293575_0148 finished with failed status
SparkApplication依赖第三方jar文件解决方式
kafka sparkstreaming整合后集群报错org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/uti
spark-submit报错:Application application_1529650293575_0148 finished with failed status
解决方法:https://blog.youkuaiyun.com/dkl12/article/details/80995083
Spark on Yarn 查看日志及状态的命令
1、查看某个job的日志
yarn logs -applicationId application_1515118561637_0439
2、查看某个job的状态
yarn application -status application_1515118561637_0439
关于在Spark集群中读取本地文件抛出找不到文件异常的问题
一般情况下,我们在本地ide里写好程序,打成jar包上传到集群取运行,有时候需要读取数据文件,这个时候需要注意,如果程序中读取的是本地文件,那么,要在所有的节点都有这个数据文件,只在master中有这个数据文件时执行程序时一直报找不到文件
解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。
解决方式2:直接将数据文件上传到hdfs,达到数据共享。(强烈推荐,比格更高更专业)
---------------------
作者:Lee_Sung
来源:优快云
原文:https://blog.youkuaiyun.com/sunglee_1992/article/details/79127025?utm_source=copy
版权声明:本文为博主原创文章,转载请附上博文链接!
HDFS基本命令的使用
hdfs文件的相关操作主要使用hadoop fs、hadoop dfs、hdfs dfs 命令,以下对最常用的相关命令进行简要说明。
hadoop fs -ls 显示当前目录结构,-ls -R 递归显示目录结构
hadoop fs -mkdir 创建目录
hadoop fs -rm 删除文件,-rm -R 递归删除目录和文件
hadoop fs -put [localsrc] [dst] 从本地加载文件到HDFS
hadoop fs -get [dst] [localsrc] 从HDFS导出文件到本地
hadoop fs - copyFromLocal [localsrc] [dst] 从本地加载文件到HDFS,与put一致
hadoop fs -copyToLocal [dst] [localsrc] 从HDFS导出文件到本地,与get一致
hadoop fs -test -e 检测目录和文件是否存在,存在返回值$?为0,不存在返回1
hadoop fs -text 查看文件内容
hadoop fs -du 统计目录下各文件大小,单位字节。-du -s 汇总目录下文件大小,-du -h 显示单位
hadoop fs -tail 显示文件末尾
hadoop fs -cp [src] [dst] 从源目录复制文件到目标目录
hadoop fs -mv [src] [dst] 从源目录移动文件到目标目录
下面的对上面命令的操作演示
1,hadoop fs -ls 显示当前目录结构,-ls -R 递归显示目录结构
2,hadoop fs -mkdir 创建目录
3,hadoop fs -rm 删除文件,-rm -R 递归删除目录和文件
4,hadoop fs -put [localsrc] [dst] 从本地加载文件到HDFS
5,hadoop fs -get [dst] [localsrc] 从HDFS导出文件到本地
6,hadoop fs - copyFromLocal [localsrc] [dst] 从本地加载文件到HDFS,与put一致
7,hadoop fs -copyToLocal [dst] [localsrc] 从HDFS导出文件到本地,与get一致
8,hadoop fs -test -e 检测目录和文件是否存在,存在返回值$?为0,不存在返回1
9,hadoop fs -text 查看文件内容
10,hadoop fs -du 统计目录下各文件大小,单位字节。-du -s 汇总目录下文件大小,-du -h 显示单位
11,hadoop fs -tail 显示文件末尾
12,hadoop fs -cp [src] [dst] 从源目录复制文件到目标目录
13,hadoop fs -mv [src] [dst] 从源目录移动文件到目标目录
---------------------
作者:IT影风
来源:优快云
原文:https://blog.youkuaiyun.com/afafawfaf/article/details/80254989?utm_source=copy
版权声明:本文为博主原创文章,转载请附上博文链接!
默认情况下,是输出到stdout里的。
方法一:
进入work所在机器的spark安装目录下的work目录,里面有日志输出。
方法二:
进入spark web ui 里
点击stdout就可以查看,如果没有可能在其他work上。
l
spark读取外部配置文件之--files
来源:https://blog.youkuaiyun.com/u010225915/article/details/79457643
在运行spark程序的时,有时需要读取外部配置参数,比如mysql的host参数、端口号、es主机ip、es端口号等。通过外部文件配置参数也方便程序迁移。下面就来看看如何来实现。
1、首先我们需要一个配置文件:
property.yml
-
es.nodes: 192.16.8.16
-
es.port: 9200
2、上传配置文件到某个节点:
3、然后需要在程序里加上如下代码:
Properties props = new Properties();
props.load(new FileInputStream("property.yml"));
String nodes = props.getProperty("es.nodes");
String port = props.getProperty("es.port");
4、通过 Maven打包程序:test.jar
5、上传 test.jar 到集群
6、执行 submit 命令
spark-submit --master yarn-cluster --class com.Test --files /home/lw/property.yml /home/lw/test.jar
--files 参数指定我们需要加载的外部配置文件
SparkApplication依赖第三方jar文件解决方式
置顶 2017年12月05日 11:40:46 泪痕残 阅读数:1867 标签: Spark带三方jarjar依赖 更多
个人分类: spark
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/u012893747/article/details/78718053
1.将第三方的jar文件打包到最终形成的应用的jar文件中
使用的场景为:第三方jar文件比较小,可能会进行改动的情况下
2.使用参数 –jars给定驱动
使用场景为:jar文件比较小,依赖于改jar文件的应用比较少
操作命令为:
bin/spark-shell --jars /opt/cdh-5.3.6/hive/lib/mysql-connector-java-5.1.27-bin.jar,/opt/cdh-5.3.6/hive/lib/derby-10.10.1.1.jar
用户提交应用的时候使用--jars参数给定,回在driver运行的jvm中启动一个socket进程,提供jar文件的一个下载功能,所以这种方式不要求所有机器上均有第三方的jar文件,只要求jar文件位于使用spark-submit提交应用的机器上有这个jar文件即可
3.使用SPARK_CLASSPATH来设置第三方依赖包
使用场景:jar文件在spark应用中比较多
操作:在spark目录下创建一个external_jars文件夹,然后将jar复制到这个文件夹中,然后配置SPARK_CLASSPATH
cd /opt/cdh-5.3.6/spark
mkdir external_jars
cp /opt/cdh-5.3.6/hive/lib/mysql-connector-java-5.1.27-bin.jar external_jars/
cp /opt/cdh-5.3.6/hive/lib/derby-10.10.1.1.jar external_jars/
vim conf/spark-env.sh
添加内容如下:
SPARK_CLASSPATH=/opt/cdh-5.3.6/spark/external_jars/*
要求spark应用运行的所有机器上均存在你添加的这些jar文件
4.hadoop依赖第三方jar文件解决方式
hadoop依赖jar解决方案和spark解决方案基本类似,
第一种和spark完全一样
第二种将jars改为libjars
第三种修改HADOOP_CLASSPATH
kafka sparkstreaming整合后集群报错org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/uti
简介
整个项目架构是在CDH中,flume采集数据到kafka,然后sparkstreaming消费(flume1.7版本,kafka0.10版本,spark 2.1版本)。本来local本地模式测试已经没有问题,但是部署到集群上就报错如下:
Exception in thread "streaming-start" java.lang.NoSuchMethodError: org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/util/Collection;)V
at org.apache.spark.streaming.kafka010.Subscribe.onStart(ConsumerStrategy.scala:84)
at org.apache.spark.streaming.kafka010.DirectKafkaInputDStream.consumer(DirectKafkaInputDStream.scala:75)
at org.apache.spark.streaming.kafka010.DirectKafkaInputDStream.start(DirectKafkaInputDStream.scala:243)
at org.apache.spark.streaming.DStreamGraph$$anonfun$start$5.apply(DStreamGraph.scala:49)
at org.apache.spark.streaming.DStreamGraph$$anonfun$start$5.apply(DStreamGraph.scala:49)
at scala.collection.parallel.mutable.ParArray$ParArrayIterator.foreach_quick(ParArray.scala:143)
at scala.collection.parallel.mutable.ParArray$ParArrayIterator.foreach(ParArray.scala:136)
at scala.collection.parallel.ParIterableLike$Foreach.leaf(ParIterableLike.scala:972)
at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply$mcV$sp(Tasks.scala:49)
at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:48)
at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:48)
at scala.collection.parallel.Task$class.tryLeaf(Tasks.scala:51)
at scala.collection.parallel.ParIterableLike$Foreach.tryLeaf(ParIterableLike.scala:969)
at scala.collection.parallel.AdaptiveWorkStealingTasks$WrappedTask$class.compute(Tasks.scala:152)
at scala.collection.parallel.AdaptiveWorkStealingForkJoinTasks$WrappedTask.compute(Tasks.scala:443)
at scala.concurrent.forkjoin.RecursiveAction.exec(RecursiveAction.java:160)
at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
17/08/15 20:09:30 ERROR yarn.ApplicationMaster: RECEIVED SIGNAL TERM
原因分析
其实这个在官方文档中有介绍。地址如下:
https://www.cloudera.com/documentation/spark2/latest/topics/spark2_kafka.html#running_jobs
简单说,就是kafka集成spark2,需要在CDH中进行设置。官网介绍了2中方法。这里我采用了第二种,在CDH中进行修改配置的方法。步骤如下:
进入CDH的spark2配置界面,在搜索框中输入SPARK_KAFKA_VERSION,出现如下图,然后选择对应版本,这里我应该选择的是0.10,然后保存配置,重启生效。重新跑sparkstreaming任务,问题解决。
---------------------
作者:疯狂的暴走蜗牛
来源:优快云
原文:https://blog.youkuaiyun.com/u010936936/article/details/77247075?utm_source=copy
版权声明:本文为博主原创文章,转载请附上博文链接!