mac本机pySpark配置并且能在本地远程调用服务器Spark以及文件
@(Spark)[pycharm|pySpark]
问题描述:
我们需要对一个巨大的原始数据集进行特征工程,打算将数据存在服务器上,并且希望能够使用本地的pycharm编写RDD程序,但是程序运行使用的是服务器的Spark引擎,而程序内的文件读写也是直接使用服务器的文件路径和文件
解决办法:
1、将服务器上的spark文件夹拷到本地:
2、为了能在pycharm使用pyspark,需要进行简单配置(也就是让pycharm知道你本地spark在哪):
1、打开pycharm,进入Edit Configuration
2、 点开下图中的红圈Environment Variables: