直接在shell进行pyspark进行编程,程序没有办法写得太长,而且我们希望能够实现一个及时给出结果的编程环境,可以使用pycharm连接centos上的spark,进行本地编程,同步到centos系统中运行程序,并把结果返回pycharm上。以下是pycharm的环境配置,这里采用的是2020版本的,2023版本变动较大,暂时没有找到配置方法:
- 新建项目→选择pure python→选择existing interpreter→选择更多…按钮
- 选择SSH→New server configuration→Host填写ip地址,这里以:192.168.19.137,Port不变→Username填写自己的系统用户名:root为例→点击New按钮
- 填写Password→点击Nex
- 点击后面的文件夹图标→配置centos上的python路径,选择centos上的python路径,这里选择miniconda里的python路径→点击OK→点击Finish
- 配置上传文件的存放路径:点击Remote project location后的文件夹→选择centos上存放py文件的路径→选择ok→点击create