头发又黑又密-优快云博客

原创 pyspark dataframe存hive表

##pyspark dataframez存hive表需要写入hive表的dataframe为df_write,需要写入名为course_table的hive表df_write.write.format("orc").mode("overwrite").saveAsTable("course_table")这种表方式不用关心原来名为course_table的表结构和现有表结构是否一致，该写法...

2019-08-20 16:26:48 4547

原创 pyspark datafram拆分多条，多项合并

pyspark dataframe 拆分多条，多项合并1.拆分多项，将dataframe单项按照特定分割符号才分成多条数据from pyspark.sql.types import StringTypefrom pyspark.sql.functions import udf,explode,split# 省略df_course的获取，这里举例为两列，第一列为课程ID，第二列为该门课所有...

2019-08-20 16:07:08 1346

原创 pyspark dataframe去重

pyspark dataframe 去重方法pyspark dataframe 去重整行去重某一列或者多列相同的去除重复pyspark dataframe 去重两种去重，一种是整行每一项完全相同去除重复行，另一种是某一列相同去除重复行。整行去重dataframe1 = dataframe1.distinct()某一列或者多列相同的去除重复df = df.select("course_...

2019-08-16 10:36:40 12237 1

原创 pyspark dataframe的自定义函数处理 udf方法及空值异常

使用udf方法对dataframe的列使用自定义函数from pyspark.sql.types import StringTypefrom pyspark.sql.types import DoubleTypefrom pyspark.sql.functions import udfdef avg_score(score, people): try: if int(people)...

2019-07-03 16:04:40 4663

原创 pyspark的dataframe的单条件、多条件groupBy用法agg

pyspark groupBy方法中用到的知识点智能搜索引擎实战中用到的pyspark知识点总结sum和udf方法计算平均得分avg方法计算平均得分count方法计算资源个数collect_list() 将groupBy 的数据处理成列表max取最大值min取最小值多条件groupBy求和sum智能搜索引擎实战中用到的pyspark知识点总结项目中，先配置了spark，通过spark对象连...

2019-07-02 22:57:41 29088 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人