环境配置
1. pin install graphframe
2. 下载graphframe的jar包:https://spark-packages.org/package/graphframes/graphframes
下载后的jar包复制进docker镜像里的pyspark/jars里:
3. 将jar包复制进各个worker的jars路径下
模型
使用graphframe计算连通分量,要求先设置setCheckpointdir。
方法:在spark的环境初始化时增加红色框中的语句: