- 博客(5)
- 收藏
- 关注
原创 pyspark dataframe存hive表
##pyspark dataframez存hive表需要写入hive表的dataframe为df_write,需要写入名为course_table的hive表df_write.write.format("orc").mode("overwrite").saveAsTable("course_table")这种表方式不用关心原来名为course_table的表结构和现有表结构是否一致,该写法...
2019-08-20 16:26:48
4474
原创 pyspark datafram拆分多条,多项合并
pyspark dataframe 拆分多条,多项合并1.拆分多项,将dataframe单项按照特定分割符号才分成多条数据from pyspark.sql.types import StringTypefrom pyspark.sql.functions import udf,explode,split# 省略df_course的获取,这里举例为两列,第一列为课程ID,第二列为该门课所有...
2019-08-20 16:07:08
1284
原创 pyspark dataframe去重
pyspark dataframe 去重方法pyspark dataframe 去重整行去重某一列或者多列相同的去除重复pyspark dataframe 去重两种去重,一种是整行每一项完全相同去除重复行,另一种是某一列相同去除重复行。整行去重dataframe1 = dataframe1.distinct()某一列或者多列相同的去除重复df = df.select("course_...
2019-08-16 10:36:40
12109
1
原创 pyspark dataframe的自定义函数处理 udf方法及空值异常
使用udf方法对dataframe的列使用自定义函数from pyspark.sql.types import StringTypefrom pyspark.sql.types import DoubleTypefrom pyspark.sql.functions import udfdef avg_score(score, people): try: if int(people)...
2019-07-03 16:04:40
4544
原创 pyspark的dataframe的单条件、多条件groupBy用法agg
pyspark groupBy方法中用到的知识点智能搜索引擎 实战中用到的pyspark知识点总结sum和udf方法计算平均得分avg方法计算平均得分count方法计算资源个数collect_list() 将groupBy 的数据处理成列表max取最大值min取最小值多条件groupBy求和sum智能搜索引擎 实战中用到的pyspark知识点总结项目中,先配置了spark,通过spark对象连...
2019-07-02 22:57:41
28932
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人