Step 1
搭建spark 环境,spark 环境搭建请参考在单机上安装Spark
Step 2
进入spark安装目录:spark安装目录/python/lib
找到 py4j-0.8.2.1-src.zip 压缩包,如下图所示
解压缩 py4j-0.8.2.1-src.zip 压缩包 得到名为 py4j 的文件夹
复制 py4j 文件夹 到python目录下python的默认路径:usr/local/lib/python2.7 下
- python的默认路径:usr/local/lib/python2.7 下
- 在终端输入 sudo nautilus后,自动打开了一个窗口显示了/root目录,而且还有root权限,这个命令就是以root权限打开一个窗口,来管理文件。比如你直接点击 计算机 里面有很多文件夹和文件是root用户才能操作,所以你对该文件夹或文件不能进行粘贴,剪切,删除等操作,也不能建立新文件,而用nautilus命令后就可以复制文件到 python 目录下
- 关机重启
Step 3
新建pycharm 新建工程,文件后,写入如下测试代码
1
2
3
4
5
|
from
pyspark
import
SparkContext
sc
=
SparkContext
(
"local"
,
"test"
)
rdd
=
sc
.
parallelize
(
[
1
,
2
,
3
,
4
]
)
print
"rdd.collect():%s"
,
str
(
rdd
.
collect
(
)
)
|
参考:
- http://yuenshome.com/2015/08/ubuntu%E4%B8%8B%E5%AF%BC%E5%85%A5pyspark%E5%88%B0shell/
- http://www.open-open.com/lib/view/open1432192407317.html
- http://zhidao.baidu.com/link?url=MBgdiGCRKgokKVjD2Q-vb_cBZ617y8NpuHnkU4epdG5eRb5PwqBD1dg24VQrLOLIQxDnnN5y4pV_i_jTRSnUdq