因为本人比较熟悉Python,所以没有用scala
而且在windows下操作比较坑 后期不能基于yarn(因为windows 安装hadoop比较麻烦),故在ubuntu下运行了
1,安装spark
2,安装hadoop
3,安装pycharm
4.安装不详细说了,主要写下pycharm里面怎么配置
1) 先新建一个project
2)然后选择“Run” ->“Edit Configurations” ->“Environment variables”
3)增加SPARK_HOME目录与PYTHONPATH目录。
SPARK_HOME=Spark安装目录
PYTHONPATH=Spark安装目录下的Python目录
4)(这点也重要,有的博文没有介绍到)
点击File->setting->你的project->project structure
右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路径(这两个文件都在Spark中的python的lib中)
5)测试
运行一个小程序:
"""SimpleApp"""
from pyspark importSparkContext
logFile = "~spark-/README.md" //(~为你spark的安装路径 本地路径最好前面加个file:// 要不然会报错)
sc = SparkContext("local","Simple App")
logData = sc.textFile(logFile).cache()
numAs = logData.filter(lambdas:
'a' in s).count()
numBs = logData.filter(lambdas:
'b' in s).count()
print("Lines with a:%i, lines with b:
%i"%(numAs,numBs))
结果:Lines with a :62, lines with b:30