pyspark
筱Mary
奋斗的女汉子 @Mary
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive将带有斜杆的时间拼接成字符串
遇到的问题近日分析师提供一批样本数据,需要根据id和时间进行匹配,样本数据格式如下:但是时间数仓中的数据时间却是年月日时分秒拼接而成的字符串,导致两者匹配失败,所以需要转换,数仓的数据:解决问题分析过程:不能使用hive 自带的date_format方法。 因为表中的月日时分秒前面没有补0,使用date_format会造成数据失真,例如下图时分秒的值是错误的:(因为是时分秒不全,所以转换之前先拼接 :00 )自定义一个spark的udf去实现,我用的pythonfrom py原创 2021-09-27 11:12:07 · 1421 阅读 · 0 评论 -
pyspark.sql.utils.AnalysisException: u‘java.lang.IllegalArgumentException: Wrong FS
问题用pyspark写了程序,但是在跑的过程中报 pyspark.sql.utils.AnalysisException: u'java.lang.IllegalArgumentException: Wrong FS: hdfs://现有代码的配置信息spark = SparkSession.builder.appName(spark_application_name). \ config('spark.port.maxRetries', 500). \ config('spark.d原创 2021-09-06 16:36:03 · 2470 阅读 · 0 评论
分享