最近工作需要对千万以上数据做特征处理,为了提升运(zao)算(ri)效(xia)率(ban),开始使用pyspark做分布式运算。
也是从基本开始学习,先把用到的一些资料贴在这里,日后有空结合业务进一步整理。
(一)原理篇
一文弄懂PySpark原理与实践
https://blog.youkuaiyun.com/oTengYue/article/details/88417186
(二)上手篇
官方文档 spark.apache.org
内部tdw spark文档 https://git.code.oa.com/tdw/tdw-spark-common
常用api https://blog.youkuaiyun.com/ten_sory/article/details/80897648
(三)性能篇
spark 体验点滴- executor 数量 和task 并行数 https://blog.youkuaiyun.com/wangguohe/article/details/80645978
pyspark:dataframe与rdd的一点小事 https://www.jianshu.com/p/5e593510313b
(四)入门快速上手篇(一周搞定)
B站学习视频:spark编程基础(python版) 厦门大学-林子雨
配套教材:spark编程基础(python版) 厦门大学-林子雨