
pyspark
文章平均质量分 66
Neon_Light
这个作者很懒,什么都没留下…
展开
-
pyspark报错寻找解决方案
pyspark玄学问题spark报错问题怎么找?spark报错问题原因怎么找?spark报错问题解决方案怎么找?报错后就调spark conf 的参数,感觉太玄学了一般都吧问题原因归结到oom,解决就调大内存,调大partitionsspark报错问题怎么找?看 spark UI 提供的报错 log 日志# type1ExecutorLostFailure (executor 3 exited caused by one of the running tasks) Reason: Contain原创 2020-12-21 18:37:01 · 4955 阅读 · 0 评论 -
用写sql的思路写 pyspark
文章目录初始化:1. 查询筛选1.1 新增字段1.2 字段为list,包含子项2. group by 聚合2.1 想自定义聚合函数,3. 对数据结果排序4. join关联6. 窗口函数7. 加rank和排序8. 取topN10. 展开一个字段到多行初始化:from pyspark import SparkConf, SparkContextfrom pyspark.sql import HiveContextfrom pyspark.sql.utils import AnalysisExceptio原创 2020-05-09 21:37:01 · 467 阅读 · 0 评论