
6 Spark
PaperAgent
这个作者很懒,什么都没留下…
展开
-
Pyspark连接Kudu
如有不妥之处,欢迎随时留言沟通交流,谢谢~1、 Pyspark读Kudu(linux下提交任务ok)import pysparkpyspark --jars /home/zwshi/kudu-spark2_2.11-1.6.0.jar # 启动 sqlContext = pyspark.sql.SQLContext(spark) # 创建sql连接 df = sqlContex...原创 2018-07-23 11:56:10 · 2694 阅读 · 0 评论 -
Pyspark can't pickle method_descriptor
如有不妥之处,欢迎随时留言沟通交流,谢谢~其实错误背后的理论原因没理解很清楚,麻烦大神帮忙解答下?错误代码:from impala.dbapi import connectis_test = Falsehost = '192.168.0.1' if is_test else '192.168.0.1'conn = connect(host=host, port=25001, t...原创 2018-07-23 15:22:43 · 1977 阅读 · 1 评论 -
SPARK-Submit调参(转)
文章出处:https://blog.youkuaiyun.com/chenjieit619/article/details/53421080如有不妥之处,欢迎随时留言沟通交流,谢谢~在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡...转载 2018-07-23 16:17:55 · 3651 阅读 · 0 评论 -
Pyspark-RDD不能嵌套
df = sqlContext.createDataFrame( [(0,1, "a", 23.0), (1,3, "C", -23.0), (2,3, "A", -21.0), (3,2, "B", -19.0) ], ('sec_code','dt','minute') )df.show()a = [(1,rdd)]rdd = sc.parallelize(a)Tracebac...原创 2018-07-23 16:54:20 · 1695 阅读 · 0 评论 -
Spark On Yarn任务超时监控-Shell
最近在用spark跑任务,发现有些任务实际已经执行完成,但是就是占用资源,结束不了,用shell写了个yarn上application耗时监控脚本,超时自动杀掉。#!/bin/bash#current_time=`date +'%Y-%m-%d %H:%M:%S'`current_time_temp=`date +'%s%N'`current_time=$[$current_ti...原创 2018-11-21 13:34:19 · 2430 阅读 · 0 评论