在这里我用的是spark3.0 + scala2.12版本
首先在cmd上启动pyspark
这里有一个小度量,第一次使用参数启动pyspark,以便它下载所有graphframe的jar依赖项,很多教程启动的时候并没有指定依赖包,这可能会发生错误: (根据你的spark版本去graphframe官网找到对应的下载命令)
官网链接:graphframes
比如我下载对应的0.8.0-spark3.0-s_2.12 后,将它放入spark启动时对应的文件目录下
在终端输入
pyspark --packages graphframes:graphframes:0.8.0-spark3.0-s_2.12 --jars graphframes-0.8.0-spark3.0-s_2.12.jar
完成
再次在spark中新建ipynb文件运行
sc.addPyFile("../graphframes-0.8.0-spark3.0-s_2.12.jar")
from graphframes import *
from pyspark.sql.functions import *
举个栗子:
# Vertics DataFrame
v = spark.createDataFrame([