
spark
养生编程大队长
养生编程,你值得拥有,妈妈再也不用担心我的头发
展开
-
记一次数据连接失败问题Caused by: java.io.EOFException: Can not read response from server. Expected to read 4 by
异常信息,The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server. at sun.reflect.NativeConstructorAccessorImpl.newInstance...原创 2020-06-01 13:35:44 · 5467 阅读 · 0 评论 -
spark rdd.map依赖外部文件
先说一说普通的java项目依赖外部文件,在扩展到spark集群上。单节点:maven项目,代码中依赖一个A.mmdb文件。本来代码中写的是绝对路径获取的A.mmdb文件,部署到linxu上的时候需要把路径改了,还得把mmdb文件上传到linux的指定目录上面。所以把mmdb文件放到了项目的resource里面,通过maven打包后,jar包里面存在mmdb文件,在代码中使用如下代码可以...原创 2019-10-18 11:44:15 · 261 阅读 · 0 评论 -
spark任务代码依赖其他jar包
在spark-submit提交java任务的时候,任务代码依赖其他jar包,需要添加 --jars语法--jars a.jar,b.jar,c.jar例如任务jar包是task.jar, a,b,c,d,e是task.jar依赖的其他jarspark-submit --class classA--master yarn --deploy-mode client --q...原创 2019-10-18 11:26:04 · 248 阅读 · 0 评论 -
EMR运行spark任务任务失败重试的问题
在EMR上跑spark任务,cluster+yarn。在补数据的时候,就是把主函数,根据日期通过for循环补充数据,一次性补充了2个月的数据。会不定时的出现重试的现象,例如我从8月份补充到10月份,程序跑到8月15号,进行16号的任务是开始重试,又从8.1号开始执行。追踪EMR监控日志,会出现类似AM超出物理内存,被kill掉的日志。当AM被kill掉后,spark重试次数默认是2,所以会出现...原创 2019-10-16 16:29:10 · 896 阅读 · 0 评论 -
大数据开发-spark+java
1.使用spark-submit的方式提交java任务例如spark-submit --class aa.bb --master yarn --deploy-mode client --queue cc XXX.jar 。指定queue是在spark-submit里面指定,在java代码里面通过spark.conf().set("queue", "cc") 的方式指定没有用。在 y...原创 2019-09-19 08:55:56 · 740 阅读 · 0 评论